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以 人 工 智 能 为 代表 的 新 技术 正在 给 全 人 们 的 生产 和 生活 方式 带 来 革命 性 
的 变化 。 en: ?能 技术 试图 了 解 智能 的 本 质 ， 并 产生 一 种 新 的 与 人 类 智能 
相似 的 方式 做 出 反应 的 智能 机 器 。 让 计算 机 理解 现实 世界 中 诸如 图 像 、 语 
音 和 语言 等 数据 所 蕴含 的 高 层次 抽象 信息 ， 并 加 以 利用 ， 是 该 领域 最 大 的 
ee 诸多 理论 和 实践 成 果 表明 ， 以 深度 神经 网 络 为 代表 的 “深度 

结构 ”是 解决 该 问 题 的 最 重要 工具 之 一 。 

本 书 详细 论述 了 采用 深度 结构 的 动机 、 原 理 和 理论 依据 ， 讨 论 了 训练 
深度 神经 网 络 的 难点 ， 继 而 详尽 地 介绍 了 自动 编码 器 、 受 限 玻 尔 兹 曼 机 以 
及 深度 置信 网 络 的 概念 和 理论 ， 并 进行 了 理论 分 析 。 本 书 是 深入 理解 深度 
学 习 的 动机 和 原理 的 经 典 之 作 。 

本 书 可 作为 高 等 院 校 相关 专业 本 科 生 和 研究 生 的 教学 辅助 读物 ， 对 于 
人 工 智能 相关 人 员 ， 科 学 界 和 业界 关注 机 咒 学 习 特 别 是 希望 深入 理解 深度 
学 习 理论 基础 的 研究 者 和 从 业者 ， 本 书 值得 仔细 阅读 。 

Learning Deep Architectures for AL/by Yoshua Bengio/ ISBN; 9781601982940 

© China Machine Press 2016. Authorized translation of the English edition 

© Yoshua Bengio. This edition is published and sold by permission of Now 
Publishers Inc. , the owner of all rights to publish and sell the same. 

This title is published in China by China Machine Press with license from Now 
Publishers Inc. This edition is authorized for sale in China only, excluding Hong Kong 
SAR, Macao SAR and Taiwan. Unauthorized export of this edition is a violation of the 
Copyright Act. Violation of this Law is subject to Civil and Criminal Penalties. 

本 书 由 Now Publishers Inc. 授权 机 械 工业 出 版 社 在 中 华人 民 共 和 国境 
内 (不 包括 香港 、 澳 门 特别 行政 区 及 台湾 地 区 ) 出 版 与 发 行 。 未 经 许可 
的 出 口 ， 视 为 违反 著作 权 法 ， 将 受 法 律 制 裁 。 

北京 市 版 权 局 著作 权 合同 登记 图 字 : 01 -2016 -4515 号 。 


图 书 在 版 编目 (CIP) 数据 


人 工 智能 中 的 深度 结构 学 习 /( 加) 尤 舒 亚 ， 本 吉 奥 (Yoshua Bengio) 
著 ; 俞 凯 ， 吴 科 译 .一 北京 : 机 械 工 业 出 版 社 2017.6 ( 2018.2 重 印 ) 
书 名 原文 : Learning Deep Architectures for AI 


ISBN 978-7-111-56935-0 
LDA- 1. O%u%k--Oft- OR OATH AE WV. DTP18 
中 国 版 本 图 书馆 CIP 数据 核 字 (2017) 第 115636 号 


机 械 工业 出 版 社 (北京 1 市 百 万 庄 大 街 22 号 邮政 编码 100037) 

策划 编辑 : E RE 责任 编辑 : E 康 汤 嘉 

责任 校对 : RHR 封面 设计 : 路 恩 中 
责任 印 制 : i 

三 河 市 mIRC 限 公 司 印 刷 

2018 年 2 月 第 1 版 第 2 次 印刷 

169mm x 239mm . 7.75 印张 . 119 千 字 

anaes ISBN 978 -7 - 111 -56935-0 



















































































































































































: 35.00 JÈ 
es 如 有 缺 页 、 倒 页 、 脱 页 ， 由 本 社 发 行 部 调换 
电话 服务 网 络 服务 


服务 咨询 热线 : 010 -88379833 ”机 工 官 网 : www. empbook. com 
读者 购书 热线 : 010 - 88379649 机 工 官 博 : weibo. com/cmp1952 

金 网 : www. golden - book. com 
封面 无 防伪 标 均 为 盗版 教育 服务 网 www. cmpedu. com 


























深度 学 习 是 近年 在 学 术 界 和 产业 界 都 获得 极 大 重视 的 机 器 学 习 技 术 。 它 在 图 
像 、 语 音 等 方面 取得 的 巨大 进展 使 得 人 们 对 于 它 的 实际 应 用 充满 了 兴趣 。 而 这 些 
实际 应 用 算法 大 都 是 基于 2006 年 受 限 玻 尔 兹 曼 机 以 及 深度 置信 网 络 的 理论 突破 
而 产生 的 。 深 入 理解 深度 结构 提出 的 动机 和 原理 对 于 学 习 和 发 展 深度 学 习 算 法 具 
有 重要 的 意义 。 目 前 出 版 的 大 多 数 深度 学 习 书 籍 均 以 算法 应 用 为 主 ， 本 书 则 侧重 
于 解释 算法 背后 的 动机 ， 并 详细 分 析 深 度 结构 的 理论 基础 ， 是 一 本 不 可 多 得 的 深 
入 浅 出 的 理论 小 册子 。 

本 书 作 者 Yoshua Bengio 是 国际 著名 的 深度 学 习 领 域 开 拓 者 ， 本 书 汇集 了 他 

对 深度 结构 的 比较 系统 的 理论 思考 和 对 深度 置信 网 络 这 一 核心 理论 的 详细 分 析 。 
全 书 分 为 10 章 ， 以 深度 结构 的 引入 动机 、 引 入 方法 以 及 经 典 结构 的 理论 分 析 为 
主线 ， 详 细 介绍 了 受 限 玻 尔 效 曼 机 、 自 编码 器 、 深 度 置 信 网 络 以 及 一 系列 算法 变 
体 的 理论 及 其 算法 分 析 。 本 书 可 作为 高 等 院 校 相关 专业 本 科 生 和 研究 生 的 教学 畏 
助 读物 ， 对 于 人 工 智能 相关 人 员 ， 科 学 界 和 业界 关注 机 器 学 习 特 别 是 希望 深入 理 
解 深 度 学 习 理论 基础 的 研究 者 和 从 业者 ， 本 书 值得 仔细 阅读 。 
本 书 由 上 海 交 通 大 学 的 俞 凯 和 吴 科 共同 翻译 ， 翻 译 过 程 中 还 得 到 了 上 海 交通 
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在 超过 半 个 世纪 的 时 间 里 ， 使 用 计算 机 为 我 们 的 世界 建 模 ， 展 示 我 们 所 说 的 
“智能 ” ， 一 直 是 研究 的 重点 。 显 然 ， 为 了 实现 这 一 点 ， 大 量 的 信息 应 该 以 某 种 
方式 存储 在 计算 机 中 。 这 些 信息 的 存储 或 以 显 式 方式 或 以 隐 式 方式 进行 。 如 果 要 
完全 人 工地 将 所 有 信息 处 理 为 机 器 可 以 利用 的 形式 ， 以 便 解决 问题 并 推广 到 新 的 
情境 中 ， 其 工作 量 是 无 法 想象 的 。 因 此 ， 许 多 学 者 已 转 而 使 用 学 习 算 法 来 捕捉 这 
些 信息 的 大 部 分 。 虽 然 人 们 在 理解 和 改进 学 习 算 法 方面 有 了 很 大 的 进展 , 但 是 人 
工 智能 仍 面 临 着 挑战 。 我 们 拥有 能 让 机 器 理解 场景 并 用 自然 语言 描述 这 个 场景 的 
算法 吗 ? 除了 在 极其 受 限 的 情况 下 ， 的 确 没 有 这 样 的 算法 。 我 们 有 能 推导 出 足够 
的 语义 概念 并 且 能 用 这 些 概念 和 大 多 数 人 进行 交流 的 算法 吗 ? 答案 是 没有 。 以 定 
义 得 最 好 的 人 工 智能 任务 之 一 的 “图 像 理 解 ” 为 例 ,我们 还 没有 找到 一 个 学 习 
算法 能 发 现 必要 的 视觉 和 语义 概念 ， 来 解释 网 上 的 大 规模 图 片 。 在 其 他 人 工 智 
领域 也 有 类 似 的 情况 。 

考虑 一 个 例子 : 解释 一 个 如 图 1. 1 所 示 的 输入 图 片 。 当 人 们 尝试 解决 特定 的 
AI 任务 (比如 机 器 视觉 或 者 自然 语言 处 理 ) 时 ， 通 常会 考虑 直观 地 将 问题 拆 解 
成 多 个 子 问 题 或 是 多 个 层级 的 表示 ， 例 如 物体 部 件 以 及 坐标 模型 0%,13”,19] ， 它 
们 可 以 在 不 同 的 物体 实例 中 被 重用 。 目 前 最 先进 的 计算 机 视觉 模型 就 构建 了 多 层 
模型 ， 将 像素 点 作为 原始 输入 ， 最 后 用 线性 函数 或 是 核 函 数 分 类 L34.45] 。 其 中 
的 中 间 模 块 混合 了 工程 化 的 变换 和 学 习 ， 例 如 可 以 先 提取 那些 对 小 的 几何 波动 不 
变 的 低层 级 特征 (如 用 Garbor 滤波 器 做 边缘 检测 ) ， 青 逐渐 对 它们 做 转换 ( 如 使 
它们 在 参照 物 改 变 或 反 转 时 保持 不 变 ， 有 时 候 使 用 池 化 和 子 采 样 ) ， 然 后 检测 出 
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2 ) 人 工 智能 中 的 深度 结构 学 习 


最 常 出 现 的 模式 。 如 前 所 述 ， 为 了 从 图 片 中 获取 有 用 信息 ， 目 前 最 常用 且 合 理 的 
方案 就 是 从 原始 的 像素 点 出 发 ， 逐 渐 转 换 成 更 抽象 的 表征 ， 例 如 从 出 现 边 缘 的 地 
方 开始 ， 到 更 复杂 但 仅 出 现在 局 部 的 形状 ， 再 到 侦 测 与 子 物 体 和 图 像 的 部 件 相关 





的 抽象 类 别 ， 最 后 将 这 些 信息 整合 ， 从 而 获取 足够 的 信息 来 回答 关于 图 像 理 解 的 


问题 。 


更 高 层级 的 表示 : 


略 高 层级 的 表示 


原始 输入 向 量 表示 


XI1\ Gee X3 Xn 
2 

















图 1.1 我 们 想 要 把 原始 的 图 像 输 入 转换 成 更 高 层级 的 表示 。 这 些 表 示 是 原始 输入 的 函数 ， 


并 且 越 来 越 抽象 。 例 如 边缘 、 局 部 形状 、 物 体 部 件 等 。 虽然 语言 概念 可 以 帮助 我 们 猜测 这 些 更 














高 层级 的 隐 式 的 表示 内 容 ， 实 际 上 我 们 并 不 能 提前 知道 所 有 层级 的 提 
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昌 象 概念 所 确切 表示 的 东西 





需要 注意 的 是 ， 假 定 能 够 做 出 复杂 行为 〈 或 许可 以 被 称 作 “智能 ” ) 的 计算 
机 需要 学 习 一 个 高 可 变 函数 ， 即 这 个 函数 关于 原始 输入 是 高 度 非 线 性 的 ， 并 且 在 
不 同 目标 领域 里 表现 出 非常 大 的 波动 和 起 伏 。 将 学 习 系统 的 原始 输入 看 作 由 多 个 
可 观测 的 变量 组 成 的 一 种 高 维 实体 ， 这 个 实体 的 组 成 变量 之 间 具 有 未 知 且 错 综 复 





杂 的 关联 关系 。 举 个 例子 来 说 ， 运 用 实物 和 光照 的 三 维 几 何 知 识 ， 可 以 把 物理 和 
几何 上 的 微小 改变 〈 如 位 置 、 方 向 以 及 物体 的 光照 ) 与 图 片上 像素 点 的 强度 变 
化 联系 起 来 。 将 这 些 导 致 变化 的 因素 叫 作 波动 影响 因子 ， 因 为 它们 是 数据 的 不 同 
解释 视角 ， 它 们 各 自分 别 变 化 并 且 往往 在 统计 上 是 独立 的 。 在 这 种 情况 下 ， 显 式 
的 物理 因素 的 知识 可 以 让 我 们 获取 一 个 整体 的 数学 表达 ， 可 以 用 于 描述 因素 之 间 
的 统计 依赖 ， 也 可 以 让 我 们 对 与 相同 三 维 物体 相关 的 图 像 (作为 高 维 像素 强度 
空间 中 的 点 ) 的 形状 有 个 粗略 判断 。 如 果 机 咒 能 捕捉 到 影响 数据 统计 波动 变化 
的 那些 因素 ， 以 及 它们 产生 观察 数据 的 机 制 ， 那 么 就 可 以 认为 机 器 理解 了 真实 世 
界 中 由 这 些 波 动 影响 因子 覆盖 的 方面 。 不 幸 的 是 ， 一 般 情 况 下 ， 对 于 隐 含 在 自然 
图 片 里 的 大 部 分 变化 因素 ， 我 们 并 不 能 做 解析 性 的 理解 。 我 们 没有 足够 的 先 验 知 
识 来 解释 观测 到 的 图 像 变化 。 正 如 图 1.1 所 示 ， 即 使 对 于 显而易见 的 类 别 也 没有 
办 法 。 一 个 像 “ 人 ”这 样 的 抽象 类 别 其 实 对 应 着 大 量 可 能 的 图 片 ， 它 们 在 像素 
点 强度 的 欧式 距离 上 可 能 截然 不 同 。 这 类 图 片 在 像素 空间 中 的 存在 非常 复杂 ， 其 
至 都 不 一 定 在 互相 连接 的 区 域 之 中 。 在 图 片 空 间 里 , “人 ”这 个 类 别 可 以 看 作 一 
个 高 层级 抽象 概念 。 在 这 里 所 说 的 抽象 概念 可 以 是 一 个 类 别 (如 “人 ”) 或 是 一 
个 特征 。 特 征 指 的 是 传感器 输入 信号 的 一 个 函数 ， 它 可 以 是 离散 的 〈 例 如 “ 输 
入 的 句子 是 否 是 过 去 时 态 ”) ， 或 者 连续 的 〈 如 “输入 的 视频 展示 了 一 个 物体 在 
以 2m/s 的 速度 运动 ") 。 许 多 较 低 层级 和 中 间 层 级 的 概念 〈 也 可 以 被 称 作 抽象 ) 
对 于 构建 一 个 检测 “人 ”的 系统 是 很 有 用 的 。 较 低层 级 的 抽象 和 特定 的 感知 有 
着 更 直接 的 联系 ， 而 更 高 层级 的 抽象 则 以 中 间 层 级 的 抽象 为 基础 ， 它 与 实际 感知 
的 联系 更 微弱 。 

产生 适当 的 中 间 层 抽象 是 件 困 难 的 任务 。 此 外 ， 一 个 所 谓 “ 智 能 ”的 机 顺 
要 掌握 的 图 像 和 语义 概念 (例如 “人 ”) 也 非常 多 。 因 此 ,深度 结构 就 希望 能 以 
自动 化 的 方式 发 现 这 些 抽 象 ， 从 最 低层 次 的 特征 到 最 高 层次 的 概念 。 理 想 情 况 
下 ， 我 们 希望 人 工 干预 尽 可 能 少 ， 不 需要 人 为 定义 所 有 必要 的 抽象 ， 或 者 是 提供 
大 量 人 工 标注 的 数据 。 如 果 算 法 能 自动 处 理 网 上 存在 的 大 量 图 片 和 文字 ， 肯 定 有 
助 于 把 人 类 的 知识 转换 成 机 带 可 理解 的 形式 。 
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1.1 如 何 训 练 深度 结构 


深度 学 习 希 望 能 学 到 特征 的 层次 结构 ， 其 中 较 高 层次 特征 由 较 低层 次 特征 组 
合 而 来 。 自 动 地 学 习 这 些 多 层次 的 特征 可 以 让 机 器 学 到 从 数据 输入 直接 映射 到 输 
出 的 复杂 函数 ， 而 不 是 完全 依赖 于 人 工 特征 。 这 对 于 处 理 高 层次 的 抽象 是 很 重要 
的 ， 因 为 我 们 往往 也 不 知道 如 何 根据 原始 输入 定义 它们 。 随 着 机 器 学 习 方法 数据 
量 和 应 用 范围 的 增长 ， 自 动 学 习 强 特征 的 能 力 将 越 来 越 重要 。 

结构 的 深度 指 的 是 机 器 学 得 的 函数 中 ， 由 非 线 性 操作 组 成 的 层级 数量 。 目 前 
大 多 数 训练 算法 所 学 到 的 都 只 是 浅 层 结构 (1 ~3 层 ) ， 但 是 哺乳 动物 的 大 脑 用 的 
是 深度 结构 [13] 。 原 始 感知 的 输入 被 多 层次 的 抽象 所 表征 ， 每 一 层次 对 应 着 大 脑 
皮层 的 不 同 区 域 。 人 类 也 是 用 类 似 的 方法 处 理 的 。 大 脑 处 理 信 息 的 方式 似乎 是 经 过 
了 多 层 的 转换 和 表示 。 这 在 灵 长 动物 的 视觉 处 理 系统 中 得 到 了 验证 [3] 。 其 处 理 方式 
是 有 顺序 结构 的 ， 从 检测 边缘 的 存在 ， 到 简单 图 形 ， 然 后 是 更 复杂 的 视觉 图 案 。 

受 大 脑 结构 深度 处 理 方式 的 启发 ， 神 经 网 络 的 研究 者 们 在 几 十 年 来 一 直 希 望 
能 训练 多 层 神经 网 络 09.91 ， 在 2006 年 之 前 都 没有 成 功 S， 他 们 在 使 用 两 到 三 
层 结构 (也 就 是 一 到 两 个 隐 层 ) 时 有 较 好 的 结果 ,但 是 层次 越 深 ,结果 越 差 。 
直到 2006 年 才 有 突破 性 进展 :多伦多 大 学 的 Hinton 等 人 构建 了 深度 置信 网 络 
(DBNs) [53] ， 其 学 习 算法 每 次 只 对 一 个 层级 用 贪心 的 思想 做 训练 ， 每 一 层 采用 
受 限 玻 尔 效 曼 机 (RBM)I54 ， 因 此 可 以 用 无 监督 学 习 的 方法 训练 。 此 后 不 久 ， 
基于 自动 编码 器 的 相关 算法 也 被 提出 [57 ,5331 ， 用 的 也 是 类 似 的 思想 一 用 无 监督 
学 习 独 立地 训练 中 间 层 。 最 近 ， 基 于 同一 思想 ， 也 有 一 系列 其 他 深度 结构 ( 受 
限 玻 尔 兹 曼 机 和 自动 编码 器 之 外 ) 的 训练 方法 被 提 了 出 来 31202] ( 见 第 4 


章 ) 。 














”除了 一 种 特殊 的 神经 网 络 一 一 卷 积 网 络 ， 我 们 在 4. 5 节 会 提 到 。 
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2006 年 以 来 ， 深度 网 络 不 仅 被 成 功 地 运用 在 分 类 任务 
E2179, 10145153,15]， 在 回归 09]、 降 维 [,131、 纹 理 建 模 [4J、 运 动 跟 
Bgl 182.1831 Aya. fA E a RUSIS] ge ATOL, H AR A A 
[37,130,202] 以 及 协同 滤波 52 1 等 方面 都 有 成 功 的 案例 。 虽 然 自动 编码 器 、 受 限 
玻 尔 兹 曼 机 以 及 深度 置信 网络 使 用 的 是 无 监督 学 习 ， 在 上 述 的 许多 应 用 中 ， 它 们 
已 被 成 功 地 用 于 初始 化 深度 有 监督 前 馈 神 经 网 络 的 参数 。 








1.2 中 间 层 表示 : 在 不 同 的 任务 中 共享 特征 和 抽象 





由 于 深度 结构 可 以 认为 由 一 系列 层级 组 合 而 成 ， 随 之 而 来 的 问题 就 是 在 每 一 

层级 里 ， 它 的 输出 〈 也 就 是 下 一 层 的 输入 ) 都 是 如 何 表达 原始 数据 的 呢 ? 层级 
之 间 的 连接 是 怎样 的 ? 最 近 对 于 深度 结构 的 研究 重点 之 一 就 是 中 间 层 的 表示 : 次 
度 结构 的 成 功 源 于 在 中 间 层 使 用 受 限 玻 尔 效 曼 机 [23] 、 自 动 编码 器 :7 、 稀 玻 自 
动 编码 吉 !0525] 或 是 降 噪 自动 编码 器 5] ， 并 采用 无 监督 学 习 的 方式 学 习 。 
些 算法 (会 在 7.2 PRANA) 可 以 看 作 是 对 “表示 ”( 下 一 层级 的 输入 ) 做 转 
换 ， 将 波动 影响 因子 更 好 地 拆 解 开 。 在 第 4 章 我 们 将 会 具体 介绍 ， 无 数 的 观测 结 
果 表 明 ， 当 每 一 层次 有 和 较 好 的 表示 后 ， 我 们 就 可 以 用 这 些 参数 作为 初始 参数 ， 用 
监督 学 习 中 的 梯度 优化 方法 成 功 地 训练 一 个 深度 神经 网 络 。 

在 大 脑 中 ， 每 个 层次 的 抽象 都 是 由 一 些 “ 激 活 ”( 神 经 元 激励 ) 组 成 ， 这 些 
“激活 ”只 占 大 量 特征 中 的 一 小 部 分 ， 并 且 通 党 不 是 互 太 的 。 由 于 这 些 特 征 不 互 
斥 ， 它 们 组 成 了 所 谓 的 分 布 式 表 示 !9'561 一 信息 并 不 是 局 限 在 某 一 个 神经 元 
里 ， 而 是 分 布 在 许多 神经 元 之 中 。 此 外 ， 大 脑 对 特征 的 存储 似乎 是 稀 玻 的 一 一 只 
有 大 约 1% ~4% AIEA AERA OS! 。3. 2 节 将 会 介绍 稀 玻 分 布 
式 表示 的 概念 ， 在 7. 1 节 会 进一步 详细 摘 述 相关 的 机 天 学 习 方 法 。 其 中 一 些 方法 
是 受到 大 脑 中 稀 玻 表征 的 特点 启发 ， 并 用 于 搭建 含有 稀 琉 表示 的 深度 结构 。 

稠密 的 分 布 式 表 示 是 这 类 表示 的 一 个 极 庙 ， 稀 下 表 示 处 于 中 间 位 置 ， 而 完全 
的 局 部 表示 则 是 男 一 个 极端 。 表 示 的 局 部 性 和 所 谓 “ 局 部 汉化 ”的 概念 是 紧密 
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相连 的 。 许 多 现 有 的 机 器 学 习 算 法 在 输入 空间 里 是 局 部 的 : 为 了 在 不 同 的 数据 空 
间 中 有 不 同 的 表现 ， 这 些 算 法 需要 有 一 套 不 同 的 参数 (3. 1 节 有 详细 介绍 ) 。 虽 
然 当 参数 量 很 大 的 时 候 ， 统 计 效 率 未 必 很 差 .但 是 为 了 获得 较 强 的 泛 化 能 力 ， 往 
往 需 要 加 上 一 些 先 验 知 识 才 行 ( 例 如 倾向 于 选择 数值 较 小 的 参数 ) 。 如 3. 1 节 最 
后 所 讨论 的 ， 当 这 些 先 验 知识 不 是 针对 特定 任务 的 时 候 ， 它 们 可 能 会 让 模型 变 得 
很 平滑 。 与 这 些 基于 局 部 泛 化 的 模型 相 比 ， 使 用 分 布 式 表 示 所 能 区 分 的 模式 数目 
可 能 与 表示 的 维 数 〈 即 学 习 到 的 特征 数目 ) 呈 指 数 关系 。 

在 许多 机 带 视 觉 的 系统 中 ， 学 习 算 法 只 限制 于 这 样 一 个 处 理 链 条 的 特定 部 
分 ， 其 余部 分 仍 需要 大 量 人 工 参 与 。 这 会 限制 系统 的 规模 。 而 且 ， 智 能 机 器 的 一 
个 标志 是 能 识别 足够 多 的 概念 ， 而 不 只 是 识别 “人 ”这 个 类 别 。 因 此 ， 需 要 一 
个 能 处 理 很 多 不 同 任务 和 概念 的 算法 。 人 工 定义 这 么 多 任务 显然 不 可 能 ， 所 以 自 
动 学 习 在 这 种 情境 下 变 得 非常 重要 。 此 外 ， 任 务 之 间 和 任务 需求 的 概念 之 间 的 潜 
在 共性 非常 重要 ,不 利用 这 些 条 件 是 不 明智 的 ， 而 这 一 直 是 多 任务 学 
习 [7832.8486] 的 研究 重点 。 多 层级 结构 很 自然 地 提供 部 件 共 享 和 复 用 : 低层 级 
的 特征 (如 边缘 检测 ) 和 中 间 层 的 特征 〈 如 局 部 目标 ) 不 仅 对 识别 人 是 有 用 的 ， 
在 很 多 其 他 的 视觉 任务 里 也 起 作用 。 

深度 学 习 是 基于 学 习 跨 任务 可 共享 的 中 间 表 示 的 。 因 此 ， 深 度 学 习 能 利用 无 
监督 的 数据 和 来 自 相 似 任务 508] 的 数据 解决 大 型 任务 中 的 数据 荐 乏 问题 。 正 如 文 
献 [37] 显示 的 ， 它 在 几 个 自然 语言 任务 中 击败 了 最 先进 的 算法 。 文 献 [2] 也 
将 相似 的 深度 框架 的 多 任务 学 习 方法 应 用 于 视觉 任务 之 中 。 考 虑 这 样 一 个 多 任务 
情形 ， 不 同 的 任务 有 不 同 的 输出 ， 而 这 些 输出 从 共享 的 高 级 特征 池 中 获得 。 由 于 
这 些 通 过 学 习 得 来 的 特征 可 以 在 多 个 任务 中 共享 ， 这 就 使 得 统计 上 的 强度 正比 于 
任务 的 个 数 。 而 这 些 高 级 特征 本 身 又 能 通过 公共 池 中 的 低级 别 中 间 特 征 的 组 合 来 
表达 ， 统 计 强 度 再 一 次 能 用 相似 的 方式 获得 ， 并 且 这 个 策略 能 在 深度 框架 的 每 一 
个 层级 中 使 用 。 

此 外 ， 对 于 大 量 相关 概念 的 学 习 有 助 于 实现 人 类 能 做 的 “宽泛 抽象 ”"， 而 这 
一 目标 无 法 通过 为 每 个 视觉 类 别 独 立 的 训练 一 个 分 类 器 去 达到 。 如 果 每 个 高 层 的 
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类 别 都 是 由 公共 池 中 抽象 特征 的 组 合 得 到 的 ， 则 通过 这 些 特征 的 新 组 合 就 能 很 自 
然 地 推广 到 未 见 过 的 类 别 上 。 即 使 只 有 一 部 分 这 样 特征 的 组 合 出 现在 训练 样本 
中 ， 由 于 它们 表示 了 数据 不 同 的 侧面 ， 新 样本 也 会 通过 这 些 特征 新 的 组 合 来 有 意 
义 地 表达 。 
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在 以 上 所 提 及 的 问题 的 基础 上 ， 我 们 把 视野 扩展 到 广义 的 人 工 智 能 中 ， 对 人 
工 智能 训练 算法 提出 了 一 些 能 力 上 的 要 求 。 我 们 认为 这 些 要 求 很 重要 ， 并 且 对 研 
究 有 推动 意义 : 

学 习 复 杂 、 高 度 变 化 的 函数 (其 变化 的 数量 远大 于 训练 样本 ) 。 
通过 很 少 的 人 工 输 入 ， 学 习 各 个 层级 (低层 级 、 中 间 层 级 、 高 层级 ) 
的 抽象 概念 。 这 些 抽象 概念 对 于 表示 复杂 的 函数 是 有 益处 的 。 

。 能 从 大 量 样本 中 学 习 : 关于 样本 数量 的 训练 时 间 复 杂 度 应 该 趋 近 于 线性 。 
能 从 大 部 分 无 标注 数据 的 数据 集中 进行 学 习 (也 就 是 半 监 督学 习 场 景 )， 
其 中 有 些 数据 没有 完整 或 者 正确 地 标注 。 

© 能 表示 大 量 任务 之 间 的 共性 〈 即 多 任务 学 习 ) 。 这 些 共 性 之 所 以 存在 ， 是 
因为 所 有 的 人 工 智 能 任务 都 只 是 真实 情况 的 不 同 表现 方式 。 

。 能 有 很 强 的 无 监督 学 习 能 力 〈 即 能 发 现 观测 数据 中 的 结构 ) 。 这 对 于 突破 
目前 很 多 任务 的 瓶颈 是 很 有 必要 的 ， 并 且 很 多 未 来 的 任务 也 不 能 提前 知道 。 

还 有 一 些 能 力 和 本 书 没 有 直接 的 联系 ,但 是 也 同样 重要 。 例 如 能 学 习 变 长 或 
变 结构 的 上 下 文 情境 表达 104] ， 从 而 让 机 器 可 以 在 上 下 文 相 关 的 情境 下 运行 并 针 
对 观测 数据 流 ， 做 出 一 系列 的 行为 决策 ; 例如 当 决 策 会 影响 未 来 的 观测 和 利益 
时 ， 能 有 合理 的 考虑 "8 ;为 了 收集 更 多 关于 真实 世界 的 数据 ， 能 采取 行动 做 出 
探索 (也 就 是 主动 学 习 的 一 种 形式 ) [41 等。 
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1.4 本 书 大 纲 


第 2 章 回顾 了 一 些 理论 成 果 (可 以 跳 过 ， 对 于 之 后 章 广 的 理解 没有 影响 )， 
说 明了 结构 的 深度 和 任务 需要 相 匹 配 ， 过 于 浅 层 的 结构 会 使 得 计算 元 素 急 剧 增加 
(对 于 输入 规模 可 能 是 指数 型 的 ) 。 我 们 提出 ， 过 于 浅 层 的 结构 是 有 害 于 学 习 的 。 
如 果 用 一 个 大 型 的 浅 层 结构 来 表示 任务 (有 大 量 计算 元 素 ) ， 为 了 调整 其 中 的 每 
一 个 元 素 并 学 习 一 个 高 可 变 函 数 ， 我 们 会 需要 大 量 的 样本 。3. 1 市 通过 说 明 局 部 
泛 化 和 局 部 估计 的 缺陷， 进一步 说 明了 深度 结构 的 动机 。 我 们 和 希望 通过 含有 分 布 
式 表 示 的 次 度 结构 来 避免 这 些 缺 陷 〈 见 3.2 节 )。 

本 书后 面 的 部 分 阐述 并 分 析 了 一 些 用 于 训练 深度 结构 的 算法 。 根 据 神经 网 络 
的 相关 文献 ， 第 4 童 介 绍 了 一 些 关 于 训练 深度 结构 的 概念 。 我 们 首先 指出 了 先前 
训练 多 层 神经 网 络 的 困难 之 处 ， 然 后 介绍 了 用 于 初始 化 深度 神经 网 络 的 无 监督 学 
JMA, AF, RERA (包括 受 限 玻 尔 兹 曼 机 ) 和 自动 编码 器 的 训练 算法 相 
X: 通过 简单 的 无 监督 学 习 ， 在 一 个 单 层 模 型 上 得 到 输入 的 分 布 式 表 
示 [”'3,156] 。 为 了 彻底 理解 受 限 玻 尔 兹 曼 机 和 相关 的 无 监督 学 习 算 法 ,第 5 章 介 
绍 了 一 类 基于 能 量 的 模型 ， 可 用 于 搭建 含有 隐 变 量 的 生成 模型 (如 玻 尔 兹 曼 机 )。 
第 6 章 重点 讲述 了 如 何 用 逐 层 贪心 训练 算法 训练 深度 置信 和 网络 (DBNs) [531 以 及 堆 
半自动 编码 器 [13.1%]。 第 6 章 讨论 了 受 限 玻 尔 兹 曼 机 和 自动 编码 髓 的 一 些 变 
体 ， 它 们 被 用 于 扩展 和 改进 原本 的 模型 。 其 中 有 些 考虑 了 稀 玻 性 和 对 时 序 依赖 的 
建 模 。 第 8 章 讨论 了 如 何 通过 变 分 方法 联合 训练 深度 置信 网 络 的 所 有 层级 。 最 
后 ,我 们 在 第 9 章 提 出 一 些 展望 性 的 问题 ， 比 如 在 训练 深度 结构 时 的 复杂 优化 问 
题 。 我 们 认为 ， 目 前 训练 深度 结构 的 成 功 部 分 源 于 对 于 低层 级 特征 的 优化 。 我 们 
讨论 了 一 些 延 拓 法 的 原理 。 它 们 通过 最 小 化 一 个 逐渐 变 得 不 平滑 的 代价 函数 , 来 
实现 深度 结构 的 优化 。 











2 
深度 结构 的 理论 优势 


在 本 节 中 ， 通 过 理论 上 分 析 浅 层 结构 的 局 限 性 ， 讨 论 研究 基于 深度 结构 的 学 
习 算法 的 动机 。 本 书 的 这 部 分 (包括 本 节 和 下 一 节 ) 将 讲述 为 什么 会 提出 之 后 
章节 中 描述 的 算法 。 跳 过 这 部 分 并 不 会 影响 后 面 章节 的 阅读 。 

本 节 的 主要 观点 是 : 过 浅 的 结构 (就 可 调 参数 的 数目 而 言 ) 不 能 有 效 地 表 
达 某 些 函 数 。 这 说 明 探究 深度 结构 的 学 习 算 法 是 有 价值 的 ， 深 层 结 构 可 以 表示 一 
些 被 其 他 结构 无 法 有 效 表示 的 函数 。 在 简单 和 较 浅 的 结构 不 能 有 效 表示 (甚至 
去 学 习 ) 的 目标 任务 上 ， 我 们 可 以 寄 希 望 于 基于 深度 结构 的 学 习 算 法 。 

当 一 个 函数 表达 式 具 有 较 少 的 计算 元 素 (Computational Elements) 时 ， 我 们 
称 这 个 函数 表达 式 是 紧凑 的 (Compact), ， 即 需要 在 学 习 过 程 中 调整 的 自由 度 是 
小 的 。 因 此 ， 对 于 有 固定 数量 的 训练 样本 ， 并 且 缺 少 其 他 输入 到 学 习 算 法 的 知识 
来 源 时 ， 我 们 希望 目标 函数 2 的 紧凑 表示 将 会 带 来 更 好 的 泛 化 性 。 

更 准确 地 说 ， 一 个 能 够 被 深度 为 天 的 结构 来 紧凑 地 表示 的 函数 ， 如 果 用 一 个 
REH k-1 的 结构 来 表示 ， 可 能 需要 指数 级 的 计算 元 素 。 因 为 可 承受 的 计算 元 
素 的 数量 取决 于 用 来 调整 或 选择 它们 的 训练 样本 的 数量 ， 所 以 这 带 来 的 影响 既是 
计算 上 的 也 是 统计 上 的 一 一 使 用 深度 不 够 的 结构 来 表达 某 些 函数 时 ， 可 以 预见 泛 
化 能 力 会 比较 弱 。 

考虑 固定 维 数 输入 的 情形 ， 可 以 使 用 一 个 有 向 无 环 图 表示 机 器 执行 的 计算 。 
图 中 每 个 节点 都 利用 其 输入 执行 一 个 函数 的 计算 ， 每 个 输入 都 是 图 中 另 一 个 节点 























”目标 函数 是 我 们 想 让 机 器 发 现 的 函数 映射 。 
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的 输出 或 是 来 自 图 的 外 部 的 输入 。 整 个 图 可 以 看 作 是 一 个 电路 ， 实 现 了 对 外 部 输 
入 的 函数 计算 。 当 计算 节点 允许 的 函数 集合 仅 限于 逻辑 门 时 ， 诸 如 “与 ”“ 或 ” 
“ 非 ”(AND，OR，NOT) ， 这 就 是 一 个 布尔 电路 或 逻辑 电路 。 

为 了 形式 化 结构 深度 的 概念 ， 必 须 引 入 计算 元 素 (Computational Elements) 
集合 的 概念 。 这 种 集合 的 一 个 例子 是 逻辑 门 ， 可 以 执行 的 运算 的 集合 。 再 举 一 个 
例子 就 是 由 人 工 神经 元 〈 依 赖 于 它 的 权重 取 值 ) 执行 的 运算 的 集合 。 一 个 函数 
可 以 用 给 定 计 算 元 素 集合 中 元 素 的 组 合 来 表示 。 用 一 个 形式 化 这 种 组 合 的 图 来 定 

个 函数 ， 其 中 每 一 个 计算 元 素 都 用 一 个 节点 来 表示 。“ 结 构 深 度 ” 是 指 计算 
元 素 连接 图 的 深度 ， 即 从 一 个 输入 节点 到 输出 节点 的 最 长 路 径 。 当 计算 元 素 集合 
是 人 工 神经 元 可 执行 的 运算 的 集合 时 ， 深 度 对 应 于 神经 网 络 中 的 层 的 数目 。 让 我 
们 用 不 同 次 度 的 结构 的 实例 来 探索 深度 的 概念 。 考 虑 函数 f(x) =x * sin(a * x + 
b) 。 如 图 2.1 所 示 ， 它 可 以 表示 为 简单 运算 的 组 合 。 这 些 简 单 运算 如 加 法 、 减 
法 、 乘 法 以 及 sin 运算 。 在 这 个 例子 中 ， 乘 法 a *x 和 最 后 的 关于 x 的 乘法 会 用 不 
同 的 节点 来 表示 。 图 中 的 每 一 个 节点 都 和 一 个 输出 值 相关 联 。 这 些 输出 值 都 是 使 
用 一 些 函数 在 输入 值 上 进行 计算 得 到 的 。 而 这 些 函 数 的 输入 值 又 是 图 中 其 他 节点 
的 输出 值 。 例 如 ， 在 逻辑 电路 中 ， 每 个 节点 可 以 计算 一 个 小 的 布尔 函数 集合 中 的 
某 个 布尔 函数 。 该 图 作为 一 个 整体 具有 输入 节点 和 输出 节点 ， 并 表达 了 一 个 从 输 
入 到 输出 的 函数 。 一 个 结构 的 深度 是 从 图 中 任意 输入 到 任意 输出 路 径 的 最 大 长 
度 ， 如 在 图 2.1 中 ,x*sin (a*x+b) 的 深度 是 4。 

A a ZL (Sig- 
moid) 的 可 能 组 合 ， 则 线性 回归 和 逻辑 回归 的 次 度 为 1， 即 只 有 一 层 (Level)。 

。 当 我 们 把 一 个 固定 的 核 计算 K(u, v) 与 其 他 仿 射 ( Affine) 操作 放 在 允许 
的 运算 集合 里 ， 带 有 固定 核 的 核 机 器 (Kernel Machines) H66) 可 以 被 认为 具有 两 
层 深 度 。 第 一 层 对 于 每 个 x，( 选 定 的 代表 性 训练 样 例 ) ， 都 有 一 个 计算 元 素 计 算 
核 函 数值 K(x,x;) ， 把 输入 向 量 * 与 代表 样本 x 匹配 起 来 。 第 二 层 进行 仿 射 组 合 
(Affine Combination) b + 2 ,QiK(x,x;) 把 匹配 好 的 x ; 和 期 望 的 响应 关联 起 来 。 

。 当 我 们 把 人 工 神 经 元 ( 仿 射 变换 后 接 非 线性 变换 ) 放 进 计算 元 素 集合 里 ， 
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图 2. 1 一 个 计算 图 表示 函数 的 例子 。 每 一 个 节点 都 是 从 允许 计算 的 “元 素 集合 ”中 选 
择 的 。 左 图 中 ， 元 素 是 | * , +，- ,sin| UR 。 该 结构 计算 x* sin(a * x +b) HIRREN 4, A 
图 中 ， 元 素 是 计算 f(x) =tanh(b +wx NAT HAT, 每 个 集合 中 的 元 素 具 有 不 同 的 参数 
(w,5)。 结 构 是 一 个 多 层 神 经 网 络 ， 深 度 为 3 










































































可 以 得 到 普通 的 多 层 神经 网 络 1156] 。 最 常见 的 选择 是 有 一 个 隐藏 层 ， 因 此 深度 为 
2 (隐藏 层 和 输出 层 ) 。 

。 决策 树 也 可 视 为 两 层 ， 将 在 3. 1 节 中 进行 讨论 。 

© BIHE (Boosting) 5551 方法 通常 在 构成 它 的 基础 的 弱 学 习 器 上 又 增加 了 一 
层 一 一 该 层 对 基础 的 弱 学 习 器 的 输出 进行 投票 表决 或 计算 其 线性 组 合 以 得 到 最 终 
的 输出 。 

© SE (Stacking) 2051 方 法则 是 另 一 种 增加 了 一 层 的 元 学 习 ( Meta - learn- 
ing) 算法 。 

。 基于 目前 脑 解 剖 的 知识 :3] ， 大 脑 皮 层 可 以 被 看 作 是 一 个 深层 的 结构 ， 
仅 是 视觉 系统 就 有 5 ~ 10 层 。 

尽管 深度 取决 于 每 个 元 素 允 许 的 计算 集合 的 选择 ， 但 是 一 个 集合 相关 的 图 经 
常 可 以 通过 增加 深度 的 图 变换 方式 转换 为 另 一 个 集合 相关 的 图 。 理 论 结果 表明 ， 
重要 的 不 是 绝对 的 层级 数目 ， 而 是 能 够 有 效 地 表达 目标 函数 所 需要 的 相对 层级 
数目 。 
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”计算 复杂 性 





关于 深层 结构 的 模型 能 力 最 正式 的 论据 来 自 于 对 电路 的 计算 复杂 性 的 探究 。 
基本 结论 是 : 如 果 一 个 函数 可 以 由 深度 结构 紧凑 地 表示 ， 则 采用 深度 不 足 的 结构 
去 表达 它 需 要 非常 庞大 的 结构 。 

逻辑 门 的 两 层 电 路 可 以 表示 任何 布尔 函数 527] 。 任 何 布尔 函数 都 可 以 写成 乘 
积 的 和 的 形式 ( 析 取 范式 : 第 一 层 是 “与 (AND)” 门 与 在 输入 上 可 选 的 “ 非 
(NOT)” 操 作 ， 第 二 层 是 “或 (OR)” 门 ), 或 者 是 和 的 乘积 的 形式 ( 合 取 范 
式 : 第 一 层 是 “或 (OR)” 门 与 在 输入 上 可 选 的 “ 非 (NOT)” 操 作 ， 第 二 层 是 
“与 (AND)” 门 ) 。 为 了 理解 浅 层 结构 的 限制 ， 应 首先 考虑 使 用 两 层 逻 辑 电 路 ， 
大 多 数 布尔 函数 需要 指数 级 〈 与 输入 大 小 相关 ) 的 逻辑 门 %] 来 表示 。 

更 有 趣 的 是 ， 有 些 函 数 在 深度 为 下 时 可 以 用 多 项 式 级 数量 的 逻辑 门 电路 计 
算 ， 而 将 深度 限制 为 大 -1 时 就 需要 指数 级 别 的 数量 了 [@] 。 这 个 定理 的 证 明 依 赖 
于 更 早 的 结论 !2%] ， 证 明 指 出 深度 为 2 的 a 位 奇偶 校 验 电路 具有 指数 级 大 小 。d 
位 奇偶 校 验 函数 一 般 定义 为 

















b; 是 偶数 


Ms 


(bi, b4) © {0,142 > 加 a 1 
0, 其 他 情况 

有 人 可 能 会 好 奇 这 些 布尔 电路 的 计算 复杂 性 结果 与 机 器 学 习 是 否 有 联系 。 参 
见 文献 [140] 可 以 发 现 与 学 习 算法 相关 的 计算 复杂 度 的 早期 研究 理论 成 果 。 有 
趣 的 是 ， 很 多 关于 布尔 电路 的 结果 可 以 被 推广 到 计算 元 素 是 线性 阔 值 单元 (也 

称 为 人 造 神经 元 5]) 的 结构 ， 其 计算 表达 式 为 
fx) = loz0 (2.1) 
st, w 和 尹 是 参数 。 电 路 的 扇 人 (Fan -in) 是 某 个 特定 计算 元 素 的 最 大 输入 
数目 。 电 路 经 常 被 组 织 成 多 层 ， 就 像 多 层 神 经 网 络 ， 在 一 层 上 的 元 素 只 以 来 自前 
上 一 层 的 元 素 作 为 输入 ， 而 第 一 层 是 神经 网 络 的 输入 。 电 路 的 大 小 是 它 计算 元 素 
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(不 包括 输入 元 素 ， 因 为 它们 不 执行 任何 计算 ) 的 数量 。 

当 试 图 紧凑 地 表示 一 个 可 以 用 深度 为 的 电路 表示 的 函数 时 ， 以 下 定理 特别 
有 趣 ， 它 适用 于 单调 加 权 阔 值 电 路 ( Monotone Weighted Threshold Circuits) ( 即 
具有 线性 阔 值 单元 且 权 重 为 正 的 多 层 神经 网 络 ) 。 

定理 2.1 用 一 个 深度 为 -1 的 单调 加 权 阔 值 电路 去 计算 函数 广 s Fa 时 ， 
其 大 小 至 少 为 2 ， 其 中 c > 0 是 某 个 常数 ，NW> MI91 。 

这 类 函数 . 的 定义 如 下 : 该 函数 是 一 个 树 状 的 深度 为 的 电路 ， 它 包含 
N* 忆 个 输入 。 树 的 叶子 是 非 负 的 输入 变量 ， 函 数值 在 树 的 根 节点 。 从 底 端 起 ， 
对 于 树 的 第 ; 层 ， 当 ; 为 偶数 时 ， 该 层 由 AND 门 组 成 ， 当 i 为 奇数 时 ,该 层 由 
OR 门 组 成 。 最 顶层 和 最 底层 的 请 人 (Fan -in) 为 N， 而 其 他 层 为 N?。 

上 述 结果 既 不 能 证 明 其 他 类 的 函数 (例如 ， 为 完成 人 工 智 能 任务 ， 我 们 想 
学 习 的 函数 ) 需要 深度 结构 ， 也 不 能 证 明 所 说 的 这 些 限制 适用 于 其 他 类 型 的 电 
路 。 然 而 ， 这 些 理论 结果 都 涉及 了 这 个 问题 : 通常 在 大 多 数 机 器 学 习 算 法 中 由 到 
的 深度 为 1、2 和 3 的 结构 ， 对 于 人 工 智能 任务 中 需要 的 复杂 函数 是 不 是 因为 太 
浅 而 不 能 有 效 地 表示 ? 类 似 上 述 定理 的 结果 也 显示 可 能 不 存在 通用 的 正确 深 
度 一 一 每 个 函数 ( 即 每 个 任务 ) 对 于 一 个 给 定 的 计算 元 素 集 合 ， 可 能 需要 一 人 
特定 的 最 小 深度 。 因 此 应 该 努力 开发 使 用 数据 来 确定 最 终结 构 深 度 的 学 习 算法 。 
还 要 注意 的 是 ， 采 用 递归 运算 定义 一 个 计算 图 ， 这 个 图 的 深度 与 迭代 的 次 数 呈 线 
性 增加 关系 。 


2.2 一些 非 正 式 的 论证 


结构 深度 与 高 可 变 函 数 的 概念 有 一 定 联系 。 我 们 认为 ， 在 通常 情况 下 深度 结 
构 能 够 紧凑 地 表示 高 可 变 函 数 ， 而 同样 一 个 函数 如 果 用 不 恰当 的 结构 来 表示 ， 却 
需要 非常 多 的 参数 。 当 一 个 函数 (例如 ， 分 段 常 数 或 者 分 段 线性 函数 ) 需要 用 
非常 多 的 分 段 来 近似 时 ， 我 们 称 它 为 高 可 变 函 数 。 深 度 结构 是 许多 操作 的 组 合 ， 
任意 的 一 个 深度 结构 都 能 被 一 个 足够 大 的 两 层 结构 表示 。 一 个 较 小 的 深度 结构 中 
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计算 单元 的 组 合 可 以 看 作 一 个 较 大 浅 层 结构 中 计算 单元 的 “ 因 式 分 解 ”"。 重 新 组 
织 计 算 单 元 的 组 成 方式 对 减少 表示 (同一 种 运算 ) 需要 的 参数 量 有 巨大 的 作用 。 
比如 ,假设 有 一 个 深度 为 2k 的 多 项 式 的 表示 ， 它 的 奇数 层 实现 乘法 操作 ， 偶 数 
层 实现 加 法 操作 。 这 类 结构 可 以 被 看 作 非 常 高 效 的 因 式 分 解 ， 因 为 如 果 把 它 压 缩 
成 一 个 深度 为 2 的 结构 ， 比 如 一 些 乘积 的 求 和 ， 那 么 这 种 浅 层 结构 需要 相当 多 的 
因 式 来 完成 求 和 一 一 考虑 深度 24 结构 中 第 一 层 的 积 (如 图 2.2 P xx ra), 
它 会 在 深度 为 2 的 结构 中 作为 因 式 出 现 很 多 次 。 从 这 个 例子 中 可 以 推断 出 ， 如 果 
一 些 运算 ( 比如 在 第 一 层 ) 能 够 在 展开 后 的 2 层 结构 表达 式 中 被 共享 ， 那 么 深 
度 结构 将 是 有 优势 的 。 在 这 种 情况 下 ， 需 要 表达 的 总 表达 式 可 以 被 分 解 开 ， 即 被 
深度 结构 更 紧凑 地 表达 。 















































(x1x2)( rars Jta asra) H (2x3) + (x2x3)(x3x4) 





图 2.2 一 个 用 来 展示 深度 结构 因子 化 的 多 项 式 电路 的 例子 。 这 里 ， 奇 数 层 做 乘法 ， 侦 数 
层 做 加 法 。 例 如 ， 第 一 层级 的 乘法 xx; 在 第 二 层级 的 如 图 所 示 的 多 项 式 展开 式 (乘积 的 和 ) 
中 出 现 许多 次 (次数 与 深度 成 指数 关系 ) 

文献 [19] 中 举 出 了 更 多 的 例子 论证 深度 结构 的 强大 表示 能 力 ， 以 及 它 在 
人 工 智 能 和 机 可 学 习 方面 的 潜力 。 在 这 之 前 ， 文献 [191] 从 偏向 认 知 的 角度 讨 
论 了 更 深层 结构 的 理论 优势 。 需 要 注意 的 是 ， 信 和 奉 连 接 主 义理 论 的 认 知 心理 学 家 
已 经 研究 很 久 的 一 种 思想 是 : 神经 计算 是 由 不 同 级 别 的 表示 按 分 层 结构 组 织 的 ， 
不 同 级 别 的 表示 代表 不 同 层次 的 抽象 ， 每 一 层 都 是 按 分 布 式 表示 方式 表达 
的 [5660234220244571 。 这 些 早期 的 发 展 为 本 书 讨论 的 现代 深度 结构 奠定 了 坚实 的 
基础 。 把 这 些 概念 引入 认 知 心理 学 (然后 是 计算 机 科学 与 人 工 智 能 ) 的 目的 有 
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两 点 ， 一 是 解释 某 些 早期 认 知 模型 不 能 自然 解释 的 现象 ， 二 是 把 认 知 学 的 解释 和 
神经 生物 基质 的 计算 特性 相互 联系 起 来 。 

总 之 , 一 些 计算 复杂 性 的 结果 有 力 地 表明 ， 对 于 同一 个 函数 ， 我 们 可 以 用 深 
度 为 天 的 结构 紧凑 地 表示 ， 但 如 果 用 更 浅 的 结构 去 表示 ， 则 需要 非常 多 的 元 素 。 
由 于 结构 中 的 每 一 个 计算 元 素 都 需要 被 选择 ， 或 者 说 用 样本 学 习 ， 上 述 结论 说 明 
了 深度 结构 从 统计 效率 角度 上 来 看 是 非常 重要 的 。 我 们 将 在 下 一 章 进一步 探讨 深 
度 结构 这 个 概念 ， 同 时 讨论 与 非 参数 学 习 算 法 相关 的 浅 层 结构 的 缺陷 一 一 佑 计 器 
的 输入 空间 的 局 部 性 。 




















3 
局 部 与 非 局 部 泛 化 性 


3.1 局 部 模板 匹配 的 局 限 性 


如 有 果 一 个 函数 的 可 变 度 比 训练 数据 的 数量 还 多 ， 那 么 学 习 算 法 怎样 紧凑 地 表 
达 这 样 的 “复杂 ”函数 呢 ? 这 个 问题 与 结构 的 深度 以 及 估计 器 的 局 部 性 都 有 关 。 
我 们 认为 ， 局 部 估计 器 虽然 能 被 深度 结构 有 效 地 表达 ,但 是 仍然 不 适合 于 学 习 高 
可 变 函 数 。 对 于 一 个 新 的 输入 *， 在 输入 空间 上 具有 “局 部 性 ”的 佑 计 咒 可 以 在 
仅 利 用 * 周围 的 训练 样本 的 情况 下 ， 就 能 得 到 很 好 的 泛 化 性 。 局 部 估计 带 显 式 或 
者 隐 式 地 把 输入 空间 分 成 几 个 区 域 (可 能 以 柔性 而 不 是 刚性 的 方式 ) ,为 了 把 目 
标 函 数 在 各 个 区 域 的 不 同形 状 刻画 出 来 ， 它 在 每 个 区 域 需要 不 同 的 参数 或 者 说 是 自 
由 度 。 当 目标 函数 是 一 个 高 可 变 的 函数 时 ， 就 需要 把 输入 空间 分 成 许多 的 区 域 ， 这 
样 需 要 的 参数 量 也 会 变 大 ， 同 时 所 需 的 训练 数据 也 要 相应 增加 才能 获得 好 的 泛 化 性 。 

局 部 泛 化 的 问题 和 维 数 灾难 的 概念 息息相关 ， 但 同时 我 们 引用 的 实验 结果 表 
明 ， 真 正 影 响 汉 化 性 的 并 不 是 维度 ， 而 是 我 们 希望 学 习 到 的 函数 的 “可 变 度 ”。 
比如 ， 如 果 模 型 表达 的 函数 是 分 段 常 值 函 数 (如 决策 树 )， 那 么 泛 化 性 的 影响 因 
素 则 是 合理 近似 目标 函数 所 需要 的 分 段 的 数量 。 当 然 ， 函 数 的 可 变 度 和 输入 的 维 
数 有 相互 的 联系 一 一 你 可 以 设计 一 系列 的 目标 函数 ， 让 它 的 可 变 度 与 输入 维 数 成 
指数 关系 ， 例 如 d 个 输入 的 奇偶 函数 。 

基于 局 部 模板 匹配 的 结构 可 以 看 作 某 种 两 层 结构 。 第 一 层 由 一 系列 能 够 与 答 
入 匹配 的 模板 组 成 。 一 个 模板 单元 可 以 输出 一 个 表示 匹配 程度 的 值 。 第 二 层 把 这 
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些 值 结合 起 来 ， 通 常情 况 下 用 简单 的 线性 组 合 (类 似 “ 或 ”操作 ) ， 用 以 预测 期 
望 的 输出 。 可 以 把 这 种 线性 组 合 看 作 一 种 插值 操作 ， 这 种 操作 可 以 产生 属于 给 定 
模板 之 间 区 域 的 答案 。 

基于 本 地 模板 匹配 结构 的 典型 例子 就 是 核 机 器 ''%] 

f(x) =b+ Sikri) (3.1) 
这 里 5 和 a 构成 了 第 二 层 ， 而 在 第 一 层 ， 就 是 核 机 器 K(x，x;) 去 匹配 输入 x 
和 训练 样本 x，( 公 式 中 的 求 和 是 在 训练 集中 全 部 或 者 部 分 输入 模式 上 进行 的 )。 
在 式 (3.1) P, f(x) 可 以 是 分 类 器 的 判别 函数 或 者 是 回归 预测 器 的 输出 。 

APA PRB K(x ,xz;) 仅 对 位 于 x*; 周围 的 连通 域 中 的 x 满足 K(x,x;) >p (p 
FSS BL) 时， 我 们 称 这 个 核 是 “局 部 的 ”"。 该 区 域 的 大 小 通常 由 核 函数 的 一 
个 超 参数 决定 。 我 们 可 以 把 高 斯 核 看 作 计算 柔性 交集 ， 因 为 它 可 以 被 写成 一 维 高 
斯 分 布 的 乘积 : K(u,v) = Tere’, WMR lu; -v1/o 在 所 有 的 7 上 都 比较 小 ， 
M Ku, n ERK, 那么 模式 就 匹配 成 功 了 。 WR lu, -v/o 对 某 个 j 比较 大 ， 则 
K(u,v) 较 小 ， 这 个 模式 就 没有 匹配 上 。 

核 机 器 的 著名 例子 不 仅 包括 了 支持 向 量 机 ”i 和 分 类 与 回归 问题 中 的 高 斯 
过 程 .1， 也 包括 了 分 类 、 回 归 和 密度 估计 问题 的 传统 非 参 数学 习 算法 ， 比 如 
近邻 算法 、Nadaraya - Watson 算法 、Parzen 窗 密 度 估计 算法 、 回 归 估计 器 等 。 下 
面 我 们 将 讨论 Isomap 和 LLE 这 样 的 流 形 学 习 算 法 ， 它 们 可 以 被 看 作 是 局 部 的 核 
机 器 ， 也 可 以 被 看 作 同 样 基于 构建 邻 域 图 (一 个 样本 对 应 一 个 节点 ， 同 时 相 邻 
样本 之 间 有 弧 连 接 ) 的 半 监 督学 习 算 法 。 

具有 局 部 核 的 核 机 器 能 够 得 到 泛 化 性 的 原因 是 利用 了 所 谓 的 平滑 性 先 验 假 
设 ， 即 假设 目标 函数 是 平滑 的 或 者 是 能 够 被 一 个 平滑 的 函数 很 好 地 近似 。 比 如 ， 
在 监督 学 习 中 ,假设 有 训练 样本 (x,,y,) ， 那 么 构造 一 个 f(x) 的 预测 器 ， 使 其 满 
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O 在 高 斯 过 程 中 ， 与 核 区 
件 期 望 。 








3 一 样 ， 式 (3.1) 中 的 f(x) 为 目标 变量 了 的 在 给 定 输入 x 下 的 待 预测 条 
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EH x Pox, 时， 预测 器 的 输出 接近 y; 是 很 显然 的 事情 。 需 要 注意 ， 这 样 的 先 
验 要 求 我 们 首先 定义 出 输入 空间 上 的 相似 度 。 平 滑 性 是 一 个 实用 的 先 验 假设 条 
件 ， 但 是 文献 [13] 和 [19] 认为 对 于 输入 空间 上 高 可 变 的 目标 函数 来 说 ， 

样 的 先 验 通常 不 足以 得 到 足够 好 的 泛 化 性 。 

高 斯 核 这 样 的 固定 通用 核 的 局 限 性 引发 了 许多 基于 任务 相关 的 先 验 知识 来 设 
TAK RFE OI 。 那 么 ， 如 果 我 们 并 没有 充分 的 先 验 知识 来 设计 一 个 
合适 的 核 ， 我 们 可 以 学 习 到 吗 ? 这 个 问题 同样 引发 了 许多 研究 ， 而 深度 

结构 则 是 其 中 一 个 非常 有 前 景 的 方向 。 Ree arias eas 

信和 网 络 学 习 特征 空间 可 以 提高 高 斯 过 程 核 机 器 的 性 和 PY Ja, 
它 的 参数 被 用 来 初始 化 一 个 确定 性 的 非 线性 变换 (一 个 多 层 神 经 网 络 ) ， 这 个 变 
换 能 够 计算 特征 向 量 〈 数 据 的 一 个 新 特征 空间 ) ， 我 们 可 以 通过 基于 梯度 的 优化 
方法 调整 这 个 变换 使 得 高 斯 过 程 的 预测 错误 最 小 。 这 个 特征 空间 可 以 看 作 自 动 学 
习 到 的 数据 表示 。 一 个 好 的 表示 应 该 让 具有 某 些 类 似 抽 象 特性 的 样本 之 间 变 得 更 
近 ， 这 些 抽象 特性 应 该 与 影响 数据 分 布 的 因素 有 关 。 深 度 结构 的 学 习 算 法 可 以 看 
作 学 习 核 机 器 的 特征 空间 的 方法 。 

假设 一 个 方向 v， 目 标 函 数 太 (理想 情况 下 学 习 器 应 该 学 到 的 函数 ) 沿 该 方 
EAI WE PALA 〈 即 当 a BE, f(x + az) -b IFA, EA 
正 ， 再 为 负 ， 然 后 再 为 正 ， 再 为 负 ， 如 此 往复 ) 。 以 文献 【165] 为 基础 ， 文 献 
[13, 19] 中 证 明 ， 对 于 高 斯 核 的 核 机 器 ， 需 要 的 样本 数 正 线性 相关 于 竺 学 习 的 
目标 函数 的 颠 艇 数 。 它 们 也 表明 对 于 奇偶 函数 这 种 具有 极 大 变化 性 的 函数 ， 在 采 
用 高 斯 核 的 时 候 ， 如 果 想 使 错误 率 降 到 一 定 水 平 ， 所 需 的 高 斯 核 中 的 样本 数量 是 
输入 向 量 维度 的 指数 量 级 。 对 仅 依 赖 目标 函数 局 部 平滑 (比如 高 斯 核 机 器 ) 先 
验 假设 的 学 习 器 来 说 ， 学 习 在 某 个 方向 上 正 负 符号 变化 很 多 的 函数 会 是 一 件 非 常 
困难 的 事情 (需要 巨大 的 VC 维度 和 相应 的 大 量 样本 )。 然 而 对 于 其 他 类 型 的 函 
数 ， 如 果 这 些 函 数 的 变化 模式 能 够 被 紧凑 地 获取 到 ， 它 们 就 能 被 学 习 到 (比如 
当 目 标 函 数 的 变化 是 周期 性 的 ， 同 时 备 选 函 数 中 某 一 类 函数 中 包含 了 能 近似 匹配 
它 的 周期 性 函数 ) 。 
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在 高 维 的 复杂 问题 中 ， 如 果 使 用 了 局 部 核 方法 ， 那 么 决策 面 的 复杂 性 可 以 很 
快 地 让 学 习 过 程 变 得 无 法 计算 。 但 同时 也 可 以 说 ， 如 果 曲 线 有 许多 可 变 度 ， 同 时 
这 些 可 变 度 彼此 之 间 没 有 潜在 的 规律 可 言 ， 那 么 没有 任何 学 习 算 法 能 够 比 具 有 输 
入 空间 局 部 性 的 估计 器 表现 得 更 好 。 然 而 ， 最 好 还 是 能 找到 描述 这 些 变 化 的 更 紧 
次 的 表示 方法 。 因 为 一 旦 找到 了 这 样 的 表达 ， 就 很 有 可 能 会 有 更 好 的 泛 化 性 ， 特 
别 是 对 于 训练 集中 没有 出 现 的 变化 方式 。 当 然 ， 这 种 情况 只 有 当 目 标 函 数 中 存在 
潜在 规律 可 供 提取 时 才 会 发 生 ; 我 们 希望 在 AI 任务 中 也 会 有 这 样 的 性 质 。 

我 们 发 现 具 有 输入 空间 局 部 性 的 估计 器 不 仅 存在 于 上 文 讨论 的 监督 学 习 算 法 
中 ,在 非 监 督 与 半 监 督学 习 算 法 中 也 存在 ， 比 如 ,局 部 线性 艇 入 "i 、Iso- 
map, ZEMA (IREZ PCA) Laplacian 本 征 映射 算法 "'”、 流 形 图 册 
化 算法 “ 、 频 谱 聚 类 算法 "” 和 基于 核 的 非 参 数 化 半 监 督 算法 ”*”” 。 这 些 
非 监督 与 半 监 督 算 法 大 部 分 依赖 于 邻 域 图 一 一 图 中 的 每 个 节点 都 是 一 个 样本 ， 弧 
连接 相 邻 的 节点 。 通 过 这 些 算 法 ， 读 者 能 够 对 它们 正在 做 什么 有 一 个 几何 上 的 直 
观 认 识 ， 同 时 也 能 理解 为 什么 成 为 一 个 局 部 的 估计 此 会 影响 它们 的 性 能 。 图 3. 1 
从 流 形 学 习 的 角度 解释 了 为 什么 这 样 说 。 再 一 次 地 ， 我 们 发 现 ， 为 了 把 函数 中 许 
多 可 能 的 变化 转换 为 可 学 习 的 ， 学 习 需 需要 一 定数 量 的 样本 ， 该 数量 与 需 覆 盖 的 
可 变 度 成 比例 中 1。 

最 后 ， 来 看 看 基于 邻 域 图 的 半 监 督学 习 算法 的 例子 ””2" ”9 。 这 些 算法 把 
邻 域 图 分 成 一 些 国定 标记 的 区 域 。 可 以 证 明 ， 具 有 固定 标记 的 区 域 数 量 不 能 多 于 
有 标注 的 样本 数 "” ， 所 以 学 习 央 至 少 需要 与 分 类 相关 的 可 变 度 一 样 多 的 标注 样 
本 数据 。 而 在 决策 面 拥有 非常 大 的 可 变 度 时 ， 获 取 这 样 大 规模 的 标注 数据 几乎 不 
可 行 。 

决策 树 ' 是 被 研究 得 最 充分 的 学 习 算法 之 一 。 由 于 它 专 注 于 处 理 输 入 变量 
的 某 一 个 子 集 ， 所 以 乍 一 看 好 像 是 非 局 部 算法 。 然 而 ， 决 策 树 的 基本 思想 是 将 输 
入 空间 进行 分 区 ， 然 后 对 各 个 区 域 使 用 不 同 的 参数 ， 这 样 每 个 区 域 都 与 决策 树 上 
的 一 个 叶 节 点 对 应 "” 。 这 意味 着 决策 树 依 然 有 着 上 文 讨论 的 其 他 非 参 数 化 学 习 
方法 的 局 限 : 它们 至 少 需要 与 目标 函数 的 相关 可 变 度 一 样 数目 的 训练 样本 ， 而 且 
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图 3.1 与 同一 物体 相关 的 图 像 集合 构成 一 个 流 形 或 者 一 个 不 相交 的 流 形 集合 。 流 形 是 比 
图 像 的 原始 空间 维度 更 低 的 区 域 。 比 如 数字 4， 通 过 旋转 和 伸缩 变换 ， 我 们 可 以 得 到 相同 类 
下 的 其 他 图 像 ， 即 在 同一 个 流 形 上 。 由 于 流 形 是 局 部 平滑 的 ， 所 以 原则 上 是 可 以 通过 与 流 形 
方向 相 切 的 多 个 线性 片段 来 局 部 近似 。 不 幸 的 是 ， 如 果 一 个 流 形 弯 曲 程度 很 大 的 话 ， 近 似 它 
需要 很 小 的 线性 片段 ， 且 数量 为 流 形 维 数 的 指数 级 。 此 图 片 由 Pascal Vincent 提供 


































































































不 能 泛 化 到 训练 集中 没有 覆盖 到 的 新 可 变性 。 通 过 理论 分 析 '” 可 以 找到 某 些 特 
殊 类 型 的 函数 ， 它 们 需要 输入 维 数 指数 级 的 训练 样本 数量 才能 达到 给 定 的 错误 
率 。 该 分 析 与 此 前 关于 计算 复杂 性 分 析 的 文章 “的 思想 有 异曲同工 之 处 。 分 析 
结果 也 与 之 前 的 实际 结果 "相符 ， 这 些 结果 表明 决策 树 的 泛 化 性 能 随 目标 函 
数 可 变性 的 增加 而 降低 。 

集成 树 (类 似 于 增强 决策 树 "” ， 和 决策 森林 '”"” ) 比 单 棵 树 更 有 效果 。 它 
在 原 有 的 两 层 结构 上 加 上 了 第 三 层 结构 ， 这 让 模型 有 了 区 分 参数 量 的 指数 级 数目 
区 域 的 功能 。 如 图 3. 2 所 示 ， 集 成 树 构成 了 一 个 森林 中 所 有 树 的 输出 的 分 布 
式 表示 (此 概念 将 在 3. 2 节 中 更 深入 讨论 ) 。 集 成 中 的 每 一 棵 树 都 能 由 一 个 代表 
输入 样本 所 属 的 叶 节 点 或 者 区 域 的 离散 符号 表示 。 每 棵 树 上 与 输入 模式 对 应 的 叶 
节点 组 成 了 一 个 描述 能 力 非常 强大 的 元 组 : 它 能 够 表达 很 多 的 可 能 模式 ， 因 为 与 
n 棵 树 对 应 的 叶 节 点 区 域 的 相交 区 域 的 数量 是 n 的 指数 级 。 
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XI X 





E3.2 APRS AEREI) 能 够 区 分 的 区 域 数量 与 参数 (树叶 ) 的 数量 
呈 线 性 关系 ， 集 成 树 〈 左 ) 能 区 分 的 区 域 却 是 树 的 数量 的 指数 级 ， 也 就 是 和 总 的 参数 量 呈 指 
数 关系 〈 至 少 只 要 树 的 数量 没有 超过 输入 的 数量 此 结论 就 成 立 ， 而 这 种 例外 在 这 里 很 难 发 
生 )。 每 一 个 可 区 分 的 区 域 都 对 应 着 每 一 棵 树 上 的 一 个 叶 节 点 (这 里 只 有 3 个 两 路 树 ， 每 棵 
树 对 应 着 两 个 区 域 ,一 共有 7 个 区 域 ) 。 这 与 多 重 聚 类 相同 ， 这 个 例子 中 三 个 聚 类 的 结果 分 别 

应 着 每 棵 树 的 两 个 区 域 。 含 有 三 个 隐 层 单元 的 受 限 玻 尔 兹 曼 机 ( 右 ) 也 属于 多 重 聚 类 ， 每 
一 次 划分 (对 应 一 个 二 值 隐 层 单元 的 ) 会 分 割 开 两 个 线性 可 分 的 区 域 。 因 此 ， 多 重 聚 类 也 是 
对 输入 模式 的 分 布 式 表 示 


在 1.2 节 中 ， 我们 提出 深度 结构 需要 对 系统 中 不 同 层级 间 的 接口 的 表示 种 类 
做 出 选择 ， 我 们 同样 介绍 了 局 部 表示 (在 之 前 的 章节 中 有 过 深入 讨论 ) 、 分 布 式 
表示 以 及 稀 琉 分 布 式 表 示 的 基本 概念 。 分 布 式 表 示 实 际 上 是 机 器 学 习 和 神经 网 络 
BIE FE PA ARG SPS ， 它 有 利于 解决 维 数 灾难 以 及 局 部 泛 化 的 局 限 
性 。 对 于 整数 ;ese1，2，…，N， 一 种 简单 的 局 部 表示 可 以 是 一 个 拥有 单独 的 1 
AN -1 450 AYN 比特 的 向 量 r(i)， 也 就 是 说 第 j 位 的 元 素 x,(i) =1;.;， 我 们 称 
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它 为 i 的 “ 独 热 ” (one - hot) 表示 。 对 同一 个 数字 的 分 布 式 表 示 可 以 是 一 个 
log, N 位 的 向 量 ， 这 种 表示 是 一 种 更 加 紧凑 的 表示 方法 。 对 于 相同 数量 的 可 能 
值 ， 分 布 式 表示 可 能 是 对 局 部 表示 的 一 个 指数 级 压缩 。 稀 玻 (比如 鼓励 大 多 数 
单元 取 值 为 0) 概念 的 引入 考虑 到 了 在 完全 局 部 (MBL) 以 及 非 稀 朴 分 布 式 表 
AN (稠密 ) 之 间 的 一 种 表示 。 人 们 相信 大 脑 皮层 中 的 神经 元 具有 一 种 分 散 式 和 
MARR, TAL, 不 管 什 么 时 间 ， 大 概 只 有 1% ~4% 的 神经 元 得 到 激 
活 ( ”3 。 在 实践 中 ， 我 们 经 常 利 用 取 值 为 连续 值 表示 的 优势 ， 来 增加 它 的 表达 
能 力 。 样 本 表示 的 第 i 个 元 素 代表 输入 与 某 个 原型 或 者 区 域 中 心 的 某 种 距离 ， 如 
同 使 用 3. 1 节 中 讨论 的 高 斯 核 那样 。 举 一 个 连续 取 值 的 局 部 表示 的 例子 ， 在 分 布 
式 表 示 中 ， 其 输入 的 模式 通常 由 一 系列 非 互 斥 的 特征 组 成 ， 这 些 特征 甚至 可 能 是 
统计 独立 的 。 举 例 来 说 ， 聚 类 算法 并 不 会 构造 一 个 分 布 式 表示 ， 因 为 这 些 类 别 之 
间 是 完全 互 斥 的 ， 然 而 独立 成 分 分 析 (ICA) RERIT (PCA) |) WU AE 
构造 出 一 个 分 布 式 表 示 。 

考虑 输入 向 量 x 的 一 种 离散 分 布 式 表 示 r(*) ， 其 中 m(xz) e1,2,…,M,iel, 
2,…,N 。 每 个 r(x) 可 以 视 为 一 个 分 类 器 ， 将 x 分 为 民 个 类 别 中 的 某 一 种 。 就 
像 图 3.2 (M=2) Pras, 每 个 r(x) 将 x 的 空间 划分 为 M 份 ， 但 通过 组 合 这 些 不 
同 的 划分 方式 ， 可 以 使 得 x 的 空间 的 划分 区 域 数量 呈 指 数 级 别 上 升 。 值 得 注意 的 
是 ， 当 表示 某 种 特殊 的 输入 分 布 时 ， 因 为 空间 划分 不 兼容 ， 某 些 组 合 是 不 可 能 出 
现 的 。 比 如 在 语言 模型 中 ， 一 个 单词 的 局 部 表示 可 以 直接 通过 词汇 表 中 的 下 标 对 
其 标识 进行 编码 ， 这 也 相当 于 使 用 一 个 字典 大 小 条 目的 独 热 编码 。 另 一 方面 ， 一 
个 单词 的 分 布 式 表示 能 够 将 句法 特征 (词性 分 布 )、 形 态 特征 (前缀 及 后 级 ) 和 
语义 特征 (代表 的 是 姓名 还 是 动物 等 ) 组 合 为 一 个 向 量 来 表示 该 单词 。 就 像 在 
聚 类 中 ， 我 们 构造 了 很 多 离散 的 类 别 ， 这 些 类 别 潜在 的 组 合 数量 是 巨大 的 。 因 此 
我 们 也 就 得 到 了 多 重 聚 类 ， 这 种 思想 与 重奏 禾 ( Overlapping Clusters) 和 部 分 隶 
RICA (Partial Membership) 的 想法 很 相似 ， 就 是 各 艇 成 员 并 非 完全 互 斥 '%%]。 
聚 类 会 形成 一 种 单一 的 划分 ， 这 通常 会 严重 损失 输入 中 的 一 些 信息 。 但 多 重 聚 类 
提供 了 一 系列 对 输入 空间 的 独立 划分 ， 在 这 种 情况 下 ， 要 想 区 分 出 某 个 输入 则 需 
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要 确定 其 在 各 个 划分 中 的 所 属 位 置 ， 由 这 些 位 置 所 组 成 的 描述 所 包含 的 信息 量 就 
十 分 丰富 了 ， 甚 至 可 能 不 会 有 信息 的 丢失 。 用 来 标识 输入 在 各 个 划分 中 所 处 位 置 
的 符号 元 组 ， 可 以 视 作 一 个 由 原始 输入 空间 转换 而 成 的 新 特征 空间 。 在 新 特征 空 
间 中 ， 原 始 数据 中 的 统计 结构 以 及 变化 因素 都 变 得 更 加 清晰 。 这 与 之 前 章节 中 提 
到 过 的 用 集成 树 对 输入 空间 进行 划分 相对 应 。 这 种 特性 同样 也 是 我 们 希望 深度 结 
构 能 够 捕获 到 的 ， 但 通过 多 个 层级 的 表示 ， 高 层 特征 应 该 更 加 的 抽象 且 可 以 表达 
出 原始 空间 中 一 些 比较 复杂 的 区 域 。 

在 监督 学 习 、 多 层 神经 网 络 " "以 及 无 监督 学 习 领 域 ， 为 了 学 习 隐 层 中 的 
分 布 式 中 间 表 示 ， 玻 尔 效 曼 机 … 被 发 明了 出 来 。 与 上 述 的 语言 模型 的 例子 不 同 ， 
玻 尔 效 曼 机 的 目标 是 为 了 发 现 那些 可 以 组 成 分 布 式 表 示 的 特征 。 在 有 多 个 隐 层 的 
神经 网 络 中 ， 有 着 多 个 特征 表示 ， 每 层 对 应 一 个 。 想 要 学 习 多 层次 的 分 布 式 表示 
涉及 如 何 有 效 训 练 的 问题 ， 我 们 在 之 后 会 进行 详细 讨论 。 


















































4 
具有 深度 结构 的 神经 网 络 


4.1 多 层 神经 网 络 








下 面 列 举 了 多 层 神经 网 络 "中 的 一 些 具 有 代表 性 的 公式 。 如 图 4. 1 所 示 ， 
第 层 利 用 前 一 层 的 输出 pr 计算 得 到 一 个 输出 向 量 加， 最 开始 的 输入 为 x = 


h, 
h" =tanh(b* + W'h'"') (4.1) 
EPA SB bt (偏差 向 量 ) 和 W (AEE), XEM tanh 函数 是 按 位 














OOOOx 

图 4.1 多 层 神 经 网 络 ， 通 常 在 监督 学 习 中 用 于 预测 或 分 类 ， 它 的 每 一 层 都 是 一 个 仿 射 变换 
操作 和 非 线性 变换 的 组 合 。 前 馈 的 计算 是 一 个 确定 的 转换 过 程 ， 从 输入 层 x， 经 过 隐 层 h", 1% 
到 网 络 输出 层 L。 将 得 到 的 输出 与 标签 y 对 比 就 可 以 得 到 需要 被 最 小 化 的 代价 函数 LAE ,y) 
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计算 的 ， 它 可 以 替换 为 sigm(u) =1/(1 +e") = F [tanh (u) +1] 和 其 他 的 饱和 非 


线性 函数 。 最 高 层 的 输出 有 用 来 做 预测 ， 它 和 监督 目标 y 一 起 构成 了 代价 函数 志 
(CRL,y)。 这 个 代价 函数 通常 情况 下 是 关于 bl + Weh 人 1! 的 凸 函数 。 输 出 层 使 用 的 
非 线性 函数 可 能 与 其 他 层 不 同 ， 如 softmax 函数 


eof + wlnl -1 
(4.2) 
J 
stro, wW 是 wei itt, no PIER, 并 且 È hi = 1, softmax 函数 的 输出 机 可 


以 用 作 P(Y =ilxl) 的 估计 值 ， 其 中 了 是 输入 模式 x 对 应 的 类 别 。 在 这 种 情况 下 ， 
我 们 通常 使 用 负 的 条 件 对 数 似 然 函 数 L(h,y) = -logP(Y=ylx) = - logh! 作为 代价 
函数 ， 使 它 在 (x,y) 上 期 望 值 最 小 化 。 


4.2 训练 深度 神经 网 络 的 挑战 








在 阐述 了 为 什么 需要 采用 深度 结构 的 非 局 部 估计 器 之 后 ， 我 们 现在 需要 解决 
如 何 训练 这 个 难题 。 经 验 上 的 证 据 表 明 深度 结构 的 训练 难度 要 大 于 浅 层 结 
ee 

在 2006 年 之 前 ， 机 器 学 习 文 献 对 深度 结构 一 直 没 有 过 多 的 讨论 。 这 是 因为 
当 使 用 标准 的 随机 参数 初始 化 方法 时 ， 总 是 得 到 非常 高 的 训练 和 泛 化 误差 "1。 
值得 注意 的 是 ， 人 们 发 现 深度 卷 积 神经 网 络 "” "3 更 容易 训练 ， 我 们 会 在 
4.5 节 中 进行 讨论 ， 其 中 某 些 原因 还 没有 得 到 充分 的 阐明 。 

许多 未 报道 的 负面 观察 以 及 一 些 实验 数据 "都 表明 ， 在 多 层 有 监督 深度 
神经 网 络 (使 用 随机 初始 化 参数 ) 中 ， 基 于 梯度 的 训练 会 陷入 一 个 明显 的 局 部 
极 小 值 或 平坦 区 域 ?。 并 且 发 现 随 着 深度 的 增加 ， 深 度 结构 更 难以 获得 好 的 泛 化 











”我 们 称 它 明显 的 局 部 极 小 值 。 这 是 由 于 梯度 下 降 的 学 习 轨 迹 会 陷 在 这 里 很 难 出 去 。 当 然 ， 这 不 能 
排除 更 强 的 优化 方法 也 许 能 找到 一 个 远离 目前 解 的 更 优 解 。 
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能 力 。 当 使 用 随机 初始 化 参数 时 ， 深 度 神经 网 络 的 性 能 很 差 。 这 个 结果 甚至 比 那 
些 只 含有 1 个 或 2 个 隐 层 的 神经 网 络 更 差 ”” 。 即 使 +1 层 的 神经 网 络 能 很 容 
易 表达 一 个 及 层 的 神经 网 络 能 表示 的 内 容 ， 而 层 却 不 容易 表达 +1 层 所 容纳 
的 内 容 ， 但 浅 层 网 络 性 能 更 好 的 情况 仍 会 出 现 。 

然而 ,文献 [73] 发 现 ， 如 果 使 用 无 监督 学 习 算 法 对 每 层 进行 预 训练 ， 就 
能 得 到 好 得 多 的 结果 。 这 里 的 具体 做 法 是 从 第 一 层 开始 ( 直接 接受 观察 值 x)， 
一 层 接 一 层 地 做 这 种 预 训练 。 在 最 初 的 实验 中 ， 各 层 使 用 的 是 受 限 玻 尔 兹 曼 机 模 
型 '” 。 在 之 后 的 一 些 实验 中 ， 使 用 多 种 自动 编码 器 的 变 体 对 每 层 进行 预 训练 的 
方法 也 得 到 了 相似 的 结果 "后 。 这 些 文章 大 部 分 都 利用 了 一 个 逐 层 贪 禁 无 监 
督学 习 的 思想 (在 接 下 来 的 章节 中 会 有 详细 讨论 ) 一 一 首先 使 用 无 监督 学 习 算 法 
训练 底层 〈 如 使 用 受 限 玻 尔 效 曼 机 或 者 自动 编码 器 ) ， 得 到 神经 网 络 第 一 层 参 数 的 
初始 值 。 然 后 使 用 第 一 层 的 输出 〈 对 原始 输入 的 一 种 新 的 表示 ) 作为 第 二 层 的 输 
入 ， 同 样 使 用 无 监督 算法 来 得 到 该 层 参数 的 初始 值 。 在 得 到 多 个 层 的 参数 的 初始 值 
后 ， 整 个 神经 网 络 就 能 使 用 监督 学 习 来 进行 精 调 。 相 比 于 随机 初始 化 参数 ， 使 用 无 
监督 预 训 练 所 能 带 来 的 好 处 在 多 个 统计 对 比 中 都 得 到 了 清晰 的 论证 TO 。 

到 底 用 什么 原理 能 够 解释 在 这 些 文献 中 观察 到 的 无 监督 预 训 练 的 使 用 所 春来 
的 性 能 提升 呢 ? 一 条 线索 也 许可 以 帮助 我 们 找到 深度 结构 下 训练 算法 有 效 的 原 
理 。 这 条 线索 来 自 于 非 受 限 玻 尔 兹 曼 机 或 自动 编码 器 的 无 监督 训练 算法 |。 
这 些 算法 与 基于 受 限 玻 尔 效 曼 机 以 及 自动 编码 器 的 训练 算法 的 共同 点 是 : 逐 层 的 
无 监督 准则 。 这 个 准则 通过 在 各 层 采 用 一 个 无 监督 的 训练 信号 来 帮助 该 层 的 参数 
达到 参数 空间 中 的 一 个 更 优 的 区 域 。 在 文献 [202] 中 ， 其 使 用 多 对 (x,x) 来 对 
神经 网 络 进行 训练 ， 这 些 训 练 对 可 能 是 邻居 (或 者 属于 同一 类 别 ) ， 也 可 能 不 
是 。 这 个 模型 假定 对 x 的 及 层 特征 表示 记 为 (x)。 定 义 每 层 的 局 部 训练 准则 如 
下 ; 根据 x 与 x 是 否 是 邻居 样本 (例如 ,输入 空间 的 近邻 )， 将 对 应 的 中 间 层 
表示 (x) 和 h(x) 距 离 变 得 更 近 或 者 更 远 。 这 条 准则 之 前 已 经 在 一 种 使 用 无 监 
督 流 形 学 习 '”| 算 法 的 低 维 嵌入 中 取得 成 功 。 在 这 里 则 是 应 用 在 神经 网 络 的 一 个 
或 多 个 中 间 层 '” 。 按 照 慢 特征 分 析 中 所 提出 的 高 层 抽象 短 时 不 变性 的 想 
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法 ”9 ， 为 中 间 层 提供 了 一 种 无 监督 的 指导 一 一连 续 帧 有 很 大 可 能 会 包含 同 
一 物体 。 
显而易见 ， 至 少 对 于 所 研究 的 任务 类 型 ， 使 用 这 些 技术 能 极 大 的 降低 测试 误 
差 .但 是 为 什么 呢 ? 一 个 基本 的 问题 是 ， 这 种 性 能 提升 到 底 是 因为 更 好 的 优化 还 
是 更 好 的 正则 化 。 正 如 接 下 来 所 讨论 的 ， 答 案 可 能 不 适用 于 通常 的 优化 或 者 正则 
的 定义 。 

在 一 些 实验 中 '"*” ， 即 使 使 用 没有 经 过 无 监督 预 训练 的 深度 神经 网 络 时 ， 
也 可 以 将 训练 的 分 类 误差 降低 到 0， 这 也 就 说 明了 预 训练 更 像 是 起 到 了 正则 化 的 
作用 而 不 是 优化 的 作用 。 文 献 [50] 中 的 实验 同样 给 出 了 相似 的 证 据 一 一 对 于 相 
同 的 训练 误差 ， 使 用 无 监督 预 训练 可 以 系统 地 降低 测试 误差 。 就 像 文献 [50] 中 
讨论 的 ,无 监督 预 训练 可 以 视 为 一 种 正则 化 的 形式 〈 和 先 验 知 识 ) : 无 监督 预 训 
练 将 参数 约束 在 一 个 可 接受 的 参数 空间 区 域 。 这 种 约束 强制 使 得 最 终 解 “ 接 
近 ”2 无 监督 训练 的 解 ， 期 望 这 个 解 能 捕捉 输入 空间 中 的 显著 统计 结构 。 另 一 方 
Wa, SCHR [17, 98] 中 的 实验 显示 ， 当 没有 进行 预 训练 时 ， 模 型 最 终 效 果 差 的 
原因 是 由 于 底层 没有 得 到 很 好 的 训练 ， 当 顶层 的 隐 层 被 限制 (如 强制 其 节点 数 
ERD), 采用 随机 初始 化 参数 的 深度 神经 网 络 在 训练 集 以 及 测试 集 上 的 表现 都 
RÆ, 而 且 远 不 如 经 过 预 训 练 的 神经 网 络 。 在 先前 提 到 过 的 训练 误差 达到 0 的 实 
验 中 ,通常 是 在 隐 层 节点 数量 (一 种 超 参数 ) 被 调整 到 足够 大 的 情况 下 才 出 现 
的 (为 了 最 小 化 在 验证 集 上 的 误差 )。 文 献 [17, 98] 中 提出 的 解释 假说 称 ， 当 
顶层 的 隐藏 层 没 有 任何 约束 时 ， 最 上 面 两 层 〈 相 当 于 一 个 通常 的 含有 一 个 隐藏 
层 的 神经 网 络 ) 仅 用 低层 所 提供 的 输出 ， 就 已 经 足够 拟 合 训练 集 ， 即 使 低层 所 
提供 的 输出 是 非常 差 的 。 相 比 之 下 ， 在 使 用 无 监督 预 训练 的 情况 下 ， 低 层 得 到 了 
优化 ， 即 使 我 们 使 用 尺寸 更 小 的 顶层， 同样 能 获得 更 低 的 训练 误差 以 及 得 到 更 好 
的 泛 化 效果 。 文 献 [50] 中 描述 的 实验 同样 做 出 了 一 致 的 解释 ， 即 当 使 用 随机 初 
始 化 参数 时 ,低层 (接近 输入 层 ) 参数 的 训练 效果 很 差 。 这 些 实验 说 明了 无 监 
督 预 训练 主要 对 深度 结构 的 低层 起 到 了 积极 的 作用 。 

































































” 即 在 梯度 下 降 过 程 中 处 在 相同 的 吸引 域 。 
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我 们 知道 ， 通 党 来 说 一 个 两 层 的 神经 网 络 〈 一 个 隐藏 层 ) 可 以 得 到 较 好 的 
训练 效果 ， 这 个 观点 对 于 深度 神经 网 络 中 的 最 上 面 两 层 同样 适用 。 这 两 层 组 成 了 
一 个 以 底层 输出 为 输入 的 浅 层 神 经 网 络 。 当 使 用 通用 的 训练 准则 时 ， 优 化 深度 神 
经 网 络 的 最 后 一 层 通常 是 一 个 凸 优化 问题 。 优 化 最 后 两 层 时 ， 虽 然 不 是 凸 优化 问 
题 , 但 其 比 优化 一 个 深度 神经 网 络 要 容易 得 多 (实际 上 当 隐 藏 层 节点 的 数量 趋 
近 于 无 限 大 时 ， 一 个 两 层 神 经 网 络 的 训练 也 可 以 视 作 是 优化 问题 3 ) 。 

如 果 在 顶层 有 足够 多 的 隐藏 层 节 点 〈 也 就 是 说 有 足够 的 模型 容量 ) ， 即 使 低 
层 没 有 得 到 很 好 的 训练 ， 训 练 误差 也 可 以 变 得 很 低 (只 要 底层 保留 了 原始 输入 
中 的 大 部 分 信息 ) ， 但 这 会 造成 其 泛 化 能 力 比 浅 层 神经 网 络 更 差 。 当 训练 误差 低 
而 测试 误差 高 时 ， 我 们 通常 称 这 种 现象 为 过 拟 合 。 由 于 无 监督 预 训练 降低 了 测试 
误差 ， 因 此 其 也 就 可 以 视 为 一 种 基于 数据 的 正则 化 。 其 他 一 些 强 有 力 的 证 据 表明 
无 监督 预 训练 的 表现 与 正则 化 相似 : 特别 地 ， 当 模型 没有 足够 的 容量 时 ， 无 
监督 预 训 练 往往 会 降低 其 泛 化 能 力 。 当 训练 集 的 样本 数量 较 少 时 (如 MNIST， 
不 超过 10 万 条 数据 ) ， 虽 然 无 监督 预 训 练 能 改进 测试 误差 ， 但 它 也 使 得 训练 误 
差 变 大 。 

另 一 方面 ， 对 于 更 大 的 训练 集 ， 使 用 更 好 的 低 隐 藏 层 初始 化 时 ， 训 练 误差 以 
及 测试 误差 都 能 得 到 极 大 的 下 降 CULE 4. 2 和 接 下 来 的 讨论 ) 。 这 里 的 初始 化 是 
无 监督 预 训练 。 假 设 在 一 个 充分 训练 的 座 度 神经 网 络 中 ， 其 隐藏 层 对 输入 有 一 个 
不 错 的 表示 。 这 个 表示 将 有 利于 模型 预测 。 当 低层 参数 初始 化 很 差 时 ， 这 些 明确 
而 且 连 续 的 表示 通常 也 能 保留 输入 的 大 部 分 信息 ， 但 是 这 些 表 示 可 能 会 扰乱 输 
入 ， 而 且 不 利于 顶层 学 习 到 一 个 具有 好 的 泛 化 能 力 的 分 类 器 。 

根据 这 个 假设 ， 即 使 把 深度 神经 网 络 的 最 上 面 两 层 换 成 一 个 其 他 的 凸 优化 机 
器 (如 高 斯 过 程 或 者 支持 向 量 机 ) ， 也 可 以 得 到 一 些 性 能 上 的 提升 ， 特 别 是 在 
训练 误差 上 。 但 如 果 低 层 没有 经 过 很 好 的 优化 ， 也 就 是 说 如 果 没 有 发 现 一 个 对 原 
始 输入 的 有 效 表示 ， 其 对 模型 的 泛 化 能 力也 不 会 有 太 大 的 帮助 。 

因此 ， 存 在 这 样 一 个 假说 : 通过 更 好 地 调整 优化 深度 结构 的 低层 ， 无 监督 预 
训练 有 助 于 提升 模型 的 泛 化 能 力 。 虽 然 只 利用 顶层 拟 合 训练 样本 就 能 降低 训练 误 
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3 层 网 络 ，10000000 次 迭代 预 训 练 
10'¢ T 7 = =x = 
E -人 后- 0 unsupervised+10000000 supervised 
-人 2500000 unsupervised+7500000 supervised 
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在 线 分 











































































































5 7 
从 开始 看 到 的 样本 数 x10° 
































图 4.2 在 线 使 用 1000 万 条 手写 数字 图 片 训 练 深度 结构 。 这 里 ， 三 角形 表示 使 用 预 训练 ， 
形 表 示 没 有 使 用 预 训 练 。 在 1000 个 样本 上 在 线 计算 的 分 类 误差 显示 在 图 中 〈 纵 轴 ， 对 数 
刻度 ; 横 轴 ， 从 开始 算 看 到 的 样本 数 ) 。 前 250 万 个 样本 用 作 无 监督 预 训练 (采用 堆 炙 的 降 
噪 自动 编码 器 ) 。 曲 线 尾 部 的 震动 是 由 于 此 时 的 错误 率 已 经 接近 0。 这 使 得 采样 变动 在 对 数 
刻度 下 看 起 来 很 大 。 在 非常 大 的 训练 集 的 情况 下 ， 正 则 化 的 效果 应 该 消失 。 相 比 之 下 ， 我 们 
可 以 看 到 ， 在 没有 预 训练 的 情况 下 ， 训 练 收敛 到 了 一 个 更 差 的 局 部 最 优 ; 无 监督 预 训练 帮助 
神经 网 络 找到 在 线 误 差 的 一 个 更 优 最 小 值 。 实 验 由 Dumitru Erhan 完成 
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差 ， 但 当 所 有 层 都 得 到 合适 的 调整 时 ， 可 以 取得 更 好 的 模型 泛 化 能 力 。 另 一 个 更 
好 的 模型 泛 化 能 力 的 源头 可 能 来 自 于 某 种 形式 的 正则 化 : 通过 无 监督 预 训练 ， 低 
层 被 约束 去 捕捉 到 输入 分 布 中 的 规律 。 对 于 一 组 随机 的 输入 输出 数据 对 (X,Y)， 
这 种 正则 化 效果 与 在 半 监 督学 习 中 使 用 无 标注 数据 的 效果 类 似 ""”。 也 与 采用 最 
大 似 然 方式 优化 生成 模型 P(X,Y) 相 比 优化 判别 式 模型 P(YIX) 所 产生 的 正则 化 
效果 类 似 0* 1 。 如 果 对 于 对 的 函数 P(X) 和 P(YIX) 是 无 关 的 (也 就 是 说 ， 这 
两 个 函数 是 独立 选择 的 ， 学 习 其 中 一 个 函数 不 会 给 我 们 带 来 男 一 个 函数 的 信 
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息 ) ， 那 么 对 于 P(X) 的 无 监督 学 习 对 P(YIX) 的 学 习 没 有 任何 帮助 。 但 是 如 果 它 
们 是 相关 的 ?， 而 且 如 果 在 估计 P(X) 和 P(YIY) 时 使 用 相同 的 参数 9 ， 那 么 每 个 
数据 对 (XX,7) 为 P(YIX) 所 来 带 的 信息 不 仅 可 以 通过 常规 的 手段 获得 ， 而 且 可 以 
通过 P(X) 来 获得 。 举 个 例子 ， 在 深度 置信 网 络 中 ， 两 个 分 布 共享 相同 的 参数 ， 
所 以 用 来 估计 P(YIX) 的 参数 受益 于 一 种 基于 数据 的 正则 化 : 这 些 参 数 在 某 种 程 
度 上 需要 同时 满足 P(YIX) 以 及 P(X). 

现在 让 我 们 回 到 使 用 “优化 ”与 “正则 化 ”来 解释 无 监督 预 训练 优势 的 讨 
论 上 来 。 值 得 注意 的 是 ， 在 这 里 使 用 “优化 ”一 词 时 需要 十 分 小 心 。 如 果 只 是 
遵循 优化 的 一 般 意义 ， 我 们 并 没有 遇 到 优化 的 困难 。 的 确 ， 我 们 可 以 依靠 网 络 的 
最 上 面 两 层 ， 将 整个 网 络 的 训练 误差 降 得 很 低 。 然 而 ， 如 果 考 虑 到 调整 低层 网 络 
(无 论 是 通过 限制 倒数 第 二 层 ， 即 最 上 面 的 隐 层 ， 中 隐 层 节点 的 数量 还 是 限制 最 
上 面 两 层 权 重 的 大 小 ) , 则 涉及 优化 的 难度 问题 。 

一 种 验证 优化 假说 和 正则 化 假说 的 方式 是 考虑 真实 的 在 线 环境 (训练 集中 
的 数据 从 一 个 无 限 的 流 中 得 到 ， 而 且 不 会 重复 ) 。 在 这 种 情况 下 ， 在 线 梯度 下 降 
表现 为 一 种 对 泛 化 误差 的 随机 优化 。 如 果 无 监督 预 训练 的 作用 是 纯粹 的 正则 化 ， 
那么 当 我 们 拥有 一 个 虚拟 的 无 限 训练 集 时 ， 无 论 网 络 有 没有 经 过 无 监督 预 训练 ， 
其 在 线 误差 都 会 收敛 到 一 个 相同 的 等 级 。 

男 一 方面 ， 如 果 这 里 提出 的 优化 解释 假说 是 正确 的 ， 我 们 就 能 预料 到 ， 即 使 
在 在 线 环 境 中 ， 无 监督 预 训练 也 能 带 来 好 处 。 为 了 探究 这 个 问题 ， 我 们 使 用 
“无 限 MNIST” 数 据 集 52; ， 也 就 是 一 个 虚拟 的 类 似 于 MNIST 里 数字 图 片 的 无 限 
数据 流 (通过 随机 转换 、 旋 转 、 缩 放 等 操作 获得 ， 参 见 文 献 【176] ) 。 如 图 4.2 
所 示 ， 当 使 用 预 训练 时 〈 使 用 堆 麦 降 噪 自动 编码 器 ， 见 7.2 节 ) ， 具 有 3 个 隐 层 
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举例 来 说 ，MNIST 中 的 数字 图 片 会 形成 一 些 分 离 得 很 好 的 徐 ， 特 别 是 当 学 习 到 有 效 表 示 时 。 即 使 

这 些 特征 是 用 无 监督 学 习 学 到 的 [22 。 所 以 甚至 在 知道 它们 的 标注 之 前 ， 我 们 也 能 大 概 猜 到 其 决 

策 面 的 位 置 。 

O ”举例 来 说 ， 用 来 估计 POI 的 多 层 神经 网 络 的 低层 ， 使 用 来 自 估计 P(X) 的 深度 置信 网 络 的 参 
数 初始 化 。 
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的 神经 网 络 会 收银 到 一 个 更 低 的 错误 率 。 这 幅 图 展示 了 在 线 错 误 率 的 下 降 过 程 
(每 1000 个 数据 作为 间隔 )。 这 个 错误 率 是 对 泛 化 误差 的 无 偏 蒙 特 卡 罗 估 计 。 前 
250 万 个 样本 用 作 无 监督 预 训练 。 

从 图 中 我 们 可 以 明显 看 出 ， 无 监督 预 训练 会 让 神经 网 络 的 测试 误差 收敛 到 一 
个 更 低 的 值 ， 也 就 是 说 ， 无 监督 预 训练 的 效果 不 止 是 正则 化 ， 而 且 也 找到 了 优化 
准则 的 一 个 更 优 最 小 值 。 尽 管 有 着 这 样 的 表现 ， 我 们 也 不 能 完全 推翻 正则 化 的 假 
说 : 因为 存在 局 部 最 优 解 ， 正 则 化 的 作用 会 一 直 持续 到 无 限 的 训练 数据 。 对 于 这 
个 现象 ,也 有 一 个 相反 的 解释 ， 当 训练 陷入 局 部 最 优 时 ， 即 使 提供 了 更 多 的 数 
据 ， 也 没有 提供 更 多 新 的 信息 。 

为 了 解释 低层 更 加 的 难以 优化 这 一 问题 ， 之 前 的 证 据 显示 ， 反 向 传播 到 低层 
的 梯度 不 足以 将 低层 的 参数 移动 到 一 个 有 着 更 优 的 解 的 区 域 。 根 据 这 个 假说 ， 低 
层 的 参数 在 优化 的 过 程 中 会 陷入 一 个 较 差 的 局 部 最 小 值 或 稳定 值 ( 即 小 的 梯 
度 ) 。 由 于 顶层 的 梯度 训练 往往 进行 得 比较 好 ， 这 就 意味 着 当 梯 度 传 回 低 层 时 ， 
这 些 梯度 含有 的 驱动 底层 参数 变化 的 信息 会 较 少 ， 也 可 以 说 对 于 梯度 下 降 ， 误 差 
函数 越 来 越 病 态 ， 以 至 于 不 能 帮助 低层 逃离 那些 局 部 极 小 值 。 正 如 4.5 节 中 所 论 
述 的 ， 这 些 与 深度 卷 积 神经 网 络 比较 容易 训练 的 现象 是 有 联系 的 ， 那 种 容易 训练 
的 情况 也 许 是 因为 其 每 层 部 存在 特殊 的 本 六 连接 。 另 外 ， 深 度 神 经 网 络 中 利用 
度 的 问题 与 通过 长 序列 训练 循环 神经 网 络 的 困难 同样 有 着 联系 ,文献 【22 81, 
119] 中 对 循环 神经 网 络 有 详细 的 分 析 。 一 个 循环 神经 网 络 可 以 按时 间 展 开 ， 只 
要 我 们 把 神经 元 在 不 同时 间 段 产生 的 输出 看 作 不 同 的 变量 即 可 ， 对 于 一 个 很 长 的 
输入 来 说 ， 展 开 的 循环 神经 网 络 会 成 为 一 个 很 深 的 次 度 结 构 。 在 循环 神经 网 络 
中 ,训练 的 困难 可 以 归结 为 经 过 多 次 非 线性 变换 后 的 梯度 弥散 (或 者 梯度 爆 
人 炸 )。 在 循环 神经 网 络 中 ， 还 有 一 个 额外 的 困难 之 处 在 于 短 时 (展开 图 中 的 更 短 
的 路 径 ) 与 长 时 (展开 图 中 的 更 长 的 路 径 ) 梯度 的 不 匹配 。 









































4.3 深度 结构 的 无 监督 学 习 





由 前 面 的 章节 可 以 看 到 ， 在 至 今 为 止 所 有 成 功 的 深度 结构 的 学 习 算 法 中 ， 
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层 的 无 监督 学 习 是 至 关 重 要 的 部 分 。 如 果 输 出 层 定义 的 优化 准则 的 梯度 在 反 向 回 
传 到 低层 的 时 候 作 用 已 经 不 明显 了 ,那么 我 们 有 理由 相信 在 单 层 级 别 上 定义 一 个 
无 监督 优化 准则 可 以 使 参数 朝 着 合理 的 方向 变化 。 我 们 也 有 理由 期 待 ， 一 个 单 层 
的 学 习 算 法 可 以 捕获 该 层 输 入 的 统计 规律 ， 并 对 其 形成 一 个 抽象 表示 。PCA 或 
ICA 的 标准 形式 〈 其 所 需 的 因素 数 与 信号 数 相同 ) 应 用 在 这 里 并 不 合适 ， 因 为 
它们 不 能 处 理 所 谓 的 “过 完备 情况 ”。 在 过 完备 情况 中 ,输出 数 大 于 它 的 输入 
数 。 这 里 建议 大 家 看 一 下 有 关 ICA 处 理 过 完备 情况 的 扩展 方法 ' ”252 ， 以 及 
与 PCA 和 ICA 有 关 的 算法 ， 例 如 自动 编码 顺和 受 限 玻 尔 效 曼 机 ， 这 两 种 方法 都 
可 以 应 用 到 过 完备 的 情况 。 实 际 上 ， 一 些 在 多 层 系 统 的 情况 下 使 用 这 些 单 层 无 监 
督学 习 算法 进行 的 实验 证 实 了 这 一 想法 ”5 eh, EE (例如 两 
层 的 PCA) 仍然 是 线性 变换 ， 并 不 是 建立 了 更 深 的 结构 。 

有 监督 准则 的 梯度 给 出 的 更 新 方向 可 能 是 不 可 靠 的， 无 监督 学 习 可 以 帮助 减 
少 对 这 种 不 可 靠 更 新 方向 的 依赖 。 除 了 这 个 动机 之 外 ， 我 们 也 引入 在 深度 结构 的 
每 一 层 都 使 用 无 监督 学 习 的 另 一 个 动机 。 那 就 是 : 它 可 以 自然 地 将 问题 分 解 成 与 
不 同 层次 的 抽象 有 关 的 子 问题 。 我 们 知道 无 监督 学 习 算 法 可 以 提取 输入 分 布 中 最 
突显 出 来 的 信息 。 这 种 信息 可 以 用 分 布 式 表示 〈 即 对 输入 中 变化 的 显著 因素 进 
行 编码 的 一 组 特征 ) 来 捕获 。 一 个 单 层 的 无 监督 学 习 算 法 可 以 获取 它 的 主要 信 
息 ,但 是 因为 单 层 容量 的 限制 ， 由 结构 中 第 一 层 提 取 的 特征 只 可 以 看 作 低 层级 的 
特征 。 可 以 想到 ， 如 果 基 于 同样 的 原理 来 学 习 第 二 层 ， 但 是 输入 的 特征 为 第 一 层 
已 经 学 习 到 的 特征 ， 这 样 可 以 获得 稍微 高 一 些 的 层级 特征 。 以 这 样 的 方式 ， 我 们 
可 以 想象 最 终 可 能 会 出 现 能 够 刻画 输入 的 更 高 级 抽象 。 需 要 注意 的 是 ， 这 个 过 程 
中 所 有 的 学 习 都 是 保留 在 每 层 的 局 部 ， 因 此 当 我 们 尝试 优化 一 个 全 局 准则 时 ， 避 
免 了 可 能 会 损害 深度 神经 网 络 梯度 学 习 效 果 的 梯度 弥散 (Gradient Diffusion) 的 问 
题 。 在 接 下 来 的 章节 中 ， 我 们 将 会 讨论 深度 生成 结构 ， 并 正式 引入 深度 置信 网 络 。 


4.4 深度 生成 结构 


在 深度 结构 中 ， 无 监督 学 习 除了 对 有 监督 的 预测 器 的 初始 化 有 帮助 外 ， 还 对 
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学 习 到 数据 的 分 布 并 且 从 该 分 布 中 采样 有 重要 的 意义 。 生 成 模型 通常 可 以 用 图 模 
型 ”1 来 表示 : 图 中 节点 表示 随机 变量 ， 边 表示 了 随机 变量 之 间 的 相关 性 。 所 有 
变量 的 联合 分 布 可 以 用 一 个 节点 和 它 在 图 中 的 邻接 节点 的 乘积 项 表示 。 在 有 向 图 
中 (定义 了 父 节 点 )， 给 定 一 个 节点 的 父 节 点 ， 则 该 节点 条 件 独 立 于 它 的 兄弟 节 
点 。 在 图 模型 中 ， 有 一 些 随 机 变量 是 可 以 被 观测 到 的 ， 另 外 一 些 不 可 以 ( 称 为 
隐 变 量 ) sigmoid 置信 网 络 是 一 个 生成 型 的 多 层 神经 网 络 ， 它 在 2006 年 之 前 就 
已 经 被 提出 并 被 研究 了 ， 人 们 使 用 变 分 近似 法 ”3 训练 它 。 如 图 4.3 所 示 ， 
sigmoid 置信 网 络 中 ， 给 定 上 一 层 神经 元 的 值 ， 则 每 一 层 的 神经 元 (通常 是 二 进 
制 的 随机 变量 ) 是 相互 独立 的 。 这 些 条 件 分 布 的 典型 的 参数 化 公式 与 式 (4.1) 
所 示 的 神经 元 的 激活 函数 类 似 


P(h: =11 h'*') = sigm(b’ + >, Wi hi”) (4.3) 
J 









































图 4.3 ”生成 式 多 层 神 经 网 络 的 例子 ， 这 是 一 个 sigmoid 置信 网 络 ， 由 有 向 图 模型 ( 
个 节点 表示 一 个 随机 变量 ， 有 向 边 表示 变量 之 间 的 直接 依赖 关系 ) 表示 。 观 测 数据 为 x， 


第 大 层 的 隐藏 变量 由 向 量 h" 的 元 素 表示 。 最 高 层 h 可 以 被 因 式 分 解 


















































RP, hi RR k AKAWA i WEAR, h KREE, AL), H 
x = 如 表示 输入 向 量 。 需 要 注意 的 是 符号 P(… ) 表示 所 采用 的 模型 的 概率 分 布 ， 








而 PP 则 表示 了 训练 数据 的 分 布 ( 即 训练 集 的 经 验 分 布 ， 或 者 说 生成 训练 样本 的 
概率 分 布 )。 最 底层 生成 了 输入 空间 的 向 量 x， 我 们 希望 这 个 模型 在 训练 数据 上 
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可 以 得 到 较 高 的 概率 。 考 虑 到 网 络 有 很 多 层 ， 这 个 生成 模型 可 以 分 解 如 下 : 





l-1 


P(x,h',-,h®) = PCR) (TIP ini) J Pæ Ih) (4.4) 
式 中 ，P(xz ) 表 示 边 缘分 布 ， 但 是 除了 很 小 的 模型 之 外 ， 这 个 边缘 分 布 在 实践 中 是 
难以 处 理 的 。 在 sigmoid 置信 网 络 中 ， 顶 层 的 先 验 分 布 P(h4) 由 因 式 分 解 得 到 ， 即 
PCR’) = JĀ PE) ,其 中 每 一 个 二 进 制 的 因 式 单元 都 服从 一 个 伯 努 利 分 布 P(h! =1) 。 


深度 置信 网络 与 sigmoid 置信 和 网络 相似 ,但 是 在 最 高 的 两 层 有 不 同 的 参数 化 
方式 ， 如 图 4.4 所 示 。 

















PCI? P )~RBM 




















图 4.4 REEMA, UU aE x, RREN h', h Mho FES MUL 4. 3 所 
示 。 这 个 结构 与 sigmoid 置信 网络 相似 ,除了 最 高 的 两 层 之 外 。 计 算 最 高 两 层 的 联合 分 布 P 
(h,k) 时 ,将 可 以 被 先 验 分 解 的 PCR ) 替换 为 一 个 受 限 玻 尔 兹 曼 机 。 这 是 一 个 混合 的 模型 ， 
由 于 受 限 玻 尔 兹 曼 机 是 一 个 无 向 图 模型 而 不 是 一 个 有 向 图 模型 ， 所 以 它 的 最 高 两 层 是 双向 边 



































p-2 
P(x,h' hê) = POE he) (EPa iw) )P(xih') (4.5) 


=1 


最 高 两 层 的 联合 分 布 称 为 受 限 玻 尔 效 曼 机 (RBM), WE 4.5 所 示 ， 它 的 推导 和 
训练 算法 细节 将 在 5. 3 节 和 5.4 节 分 别 介 绍 。 深 度 置信 网 络 相 对 于 sigmoid 置信 
网 络 的 这 一 微小 变化 产生 了 一 个 不 同 的 学 习 算法 ， 利 用 这 个 概念 可 以 一 次 训练 一 
层 ， 逐 渐 用 后 验 概率 P(h"*1x) 去 建立 一 个 对 原始 输入 更 加 抽象 的 表达 。 受 限 玻 尔 
效 曼 机 的 细节 描述 和 对 深度 结构 的 逐 层 贪心 训练 算法 会 在 后 面 的 第 5 章 和 第 6 章 


介绍 。 
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A455 受 限 玻 尔 兹 曼 机 (RBM) 的 无 向 图 模型 。 它 在 同一 层 的 单元 之 间 没 有 连接 ， 
只 是 在 输入 (或 可 观测 ) AI x, 和 隐藏 单元 及 之 间 有 连接 ， 使 得 条 件 概 率 Ph Ix) 和 

















P(xlh) 可 以 被 因 式 分 解 


4.5 卷 积 神经 网 络 





在 没有 运用 无 监督 学 习 做 预 训练 之 前 ， 训 练 深度 监督 式 神经 网 络 通 常 非常 
难 。 不 过 有 一 个 值得 注意 的 例外 一 一 卷 积 神经 网 络 (CNN) 。 这 里 的 卷 积 操作 的 
灵感 来 自视 觉 系 统 ， 特 别 是 文献 [83] 中 所 提出 的 模型 。 第 一 个 基于 这 种 神经 元 
的 局 部 连接 并 针对 图 像 进行 分 层 组 织 和 转换 的 计算 模型 是 Fukushima 的 Neocogni- 
tron 系统。 他 发 现 ， 相 同 参数 的 神经 元 被 作用 于 前 层 不 同位 置 的 子 区 域 ,会 呈 
现 出 某 种 不 变性 。 之 后 不 久 ，LeCun 的 研究 团队 基于 相同 的 思路 ,设计 并 训练 出 
基于 误差 梯度 的 卷 积 神经 网 络 ， 并 在 许多 模式 识别 任务 上 得 到 了 业界 最 好 的 性 
能 "9 。 现 代 视觉 系统 生理 学 的 认识 与 卷 积 神经 网 络 对 图 像 的 处 理 方式 显示 出 
一 致 性 ””; ， 这 至 少 体现 在 对 物体 的 快速 识别 上 ， 也 就 是 不 考虑 注意 力 和 自 顶 向 
下 反馈 连接 所 造成 的 影响 。 目 前 ， 基 于 卷 积 神经 网 络 的 模式 识别 系统 是 业界 性 能 
最 好 的 系统 之 一 。 比 如 在 手写 体 识别 : "中 它 多 年 来 一 直 是 最 好 的 模型 ” 。 











O 也许 确实 持续 太 多 年 了 。 不 过 好 消息 是 目前 该 领域 正在 发 展 更 精致 复杂 的 系统 ， 并 取得 了 更 好 的 


性 能 008.%] 。 
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相 较 于 我 们 之 前 对 训练 深度 神经 网 络 的 讨论 ， 卷 积 神经 网 络 " 0133.175] 显得 
特别 有 趣 ， 因 为 它们 通常 会 有 5 ~7 层 ， 而 这 种 配置 在 随机 初始 化 的 全 连接 多 层 
神经 网 络 的 情况 下 是 难以 训练 的 。 因 此 我 们 非常 好 奇 ， 卷 积 神经 网 络 结构 中 的 什 
么 特殊 点 带 来 了 它 在 图 像 处 理 等 任务 中 非常 好 的 泛 化 性 能 。 

LeCun 的 卷 积 神经 网 络 系统 包含 卷 积 和 降 采 样 两 种 类 型 的 神经 网 络 层 。 神 经 
网 络 的 每 一 层 都 有 特定 的 “地 貌 结构 "， 具 体 来 说 ， 每 个 神经 元 都 对 应 于 输入 图 
像 中 某 个 固定 的 二 维 位 置 及 其 接收 域 ( 即 输入 图 像 中 会 影响 到 神经 元 响应 的 区 
域 范围 ) 。 在 每 层 的 每 个 位 置 上 有 许多 不 同 的 神经 元 ， 每 个 神经 元 的 输入 权重 与 
一 个 前 层 的 矩形 小 区 域 的 神经 元 相关 。 对 于 相同 一 组 权重 ， 不 同位 置 的 神经 元 对 
应 不 同 的 输入 矩形 小 区 域 。 

一 个 未 经 证 实 的 假想 是 这 些 神经 元 具有 较 小 的 情人 系数 (每 个 神经 元 只 有 
很 少 的 输入 连接 ) ， 从 而 帮助 梯度 传播 到 更 多 的 层 上 ， 而 不 会 发 生 梯度 弥散 导致 
其 失效 。 注 意 ,单独 这 一 点 并 不 能 充分 解释 卷 积 神经 网 络 的 成 功 ， 因 为 随机 稀 踢 
连接 的 深度 神经 网 络 也 并 不 能 取得 较 好 的 结果 。 不 过 ， 扇 和 的 影响 可 能 与 从 多 条 
路 径 进 行 传播 会 让 梯度 逐渐 变 得 分 散 的 想法 相 一 致 ， 也 就 是 说 ， 对 输出 误差 的 奖 
励 或 惩罚 会 分 布 得 非常 广 而 且 各 个 值 非常 小 。 另 一 个 假想 (未必 排 斥 第 一 个 假 
想 ) 是 ， 这 种 多 层级 的 局 部 连接 结构 是 一 种 非常 强 的 先 验 。 这 种 先 验 特 别 适 用 
于 视觉 图 像 等 任务 ， 并 且 将 整个 神经 网 络 的 参数 设 定 在 非常 有 利 的 区 域 上 〈 所 
有 的 未 连接 处 等 效 于 权重 为 0) 。 从 这 些 参数 区 域 开 始 ， 梯 度 优 化 能 够 取得 很 好 
的 效果 。 事 实 上 ， 即 使 在 第 一 层 使 用 随机 权重 ， 卷 积 神经 网 络 仍 能 取得 很 好 的 性 
能 。 具 体 来 说 ， 它 的 结果 要 好 于 完全 训练 的 全 连接 神经 网 络 ， 但 差 于 经 过 完 
全 优化 之 后 的 卷 积 神经 网 络 。 

而 最 近 ， 卷 积 结 构 被 引入 到 了 受 限 玻 尔 兹 曼 机 '“] 和 深度 置信 和 网络 "1 。 文 献 
[111] 中 的 重要 创新 是 设计 出 了 一 个 池 化 或 降 采 样 的 生成 模型 版 本 。 在 报告 的 
实验 中 这 个 方法 效果 不 错 。 在 MNIST 数字 识别 和 Caltech - 101 物体 分 类 基准 上 
取得 了 目前 最 好 的 结果 。 除 此 之 外 ,论文 还 对 每 层 得 到 的 特征 (隐藏 单元 最 可 
能 表示 的 模式 ) 进行 了 可 视 化 ,证实 了 多 层级 组 合 的 概念 。 在 这 个 深度 结构 中 ， 
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层级 从 下 往 上 ， 以 一 种 自然 的 方式 ， 依 次 表达 了 边缘 ， 目 标 局 部 ， 再 到 整体 目 
标 。 而 这 个 概念 正 是 当初 使 用 深度 结构 的 动因 。 


4.6 EE iS air 


接 下 来 讨论 的 一 些 深 度 结构 (深度 置信 网 络 和 堆 释 自动 编码 器 ) 采用 了 一 
种 特定 类 型 的 神经 网 络 作为 其 组 成 部 分 ， 这 就 是 自动 编码 器 ， 也 被 称 为 自 联想 模 
型 ， 或 者 Diabolo PUK?) 。 我 们 将 在 第 5.4. 3 节 中 讨论 ， 自 动 编码 器 和 
受 限 玻 尔 兹 曼 机 也 有 一 定 联系 。 对 比 散 度 算法 使 自动 编码 器 的 训练 近似 于 受 限 玻 
尔 兹 曼 机 的 训练 。 因 为 自动 编码 器 的 训练 看 上 去 比 受 限 玻 尔 兹 曼 机 的 训练 简易 ， 
它们 被 用 来 作为 训练 深度 网 络 的 基本 模块 。 基 本 方法 是 将 神经 网 络 每 一 层 与 一 个 
自动 编码 器 关联 并 分 开 独 立 训练 ?315551 。 

训练 一 个 自动 编码 器 是 为 了 把 输入 x 编码 为 某 种 表示 c(x) ， 以 便于 输入 可 
以 从 这 种 表示 中 进行 重 构 。 因 此 我 们 希望 自动 编码 器 的 输出 是 输入 本 身 。 如 果 存 
在 一 个 线性 隐藏 层 ， 并 且 采 用 均 方 误差 准则 来 训练 这 个 网 络 ， 那 么 个 隐藏 单元 
所 学 习 到 的 ， 就 是 将 输入 向 量 投影 到 由 数据 空间 的 前 个 主 成 分 所 张 成 的 子 空 
间 55 。 如 果 隐 层 是 非 线性 的 ， 那 么 自动 编码 器 便 显得 与 主 成 分 分 析 PCA 不 同 : 
它 将 有 能 力 捕获 住 输入 分 布 的 多 模特 性 (oo 。 更 理想 的 公式 是 把 均 方 误差 准则 扒 
广 到 重 构 的 最 大 似 然 准 则 ， 也 即 负 对 数 似 然 的 最 小 化 准则 。 给 定编 码 c(x) : 

RE = -logP(xle(x)) (4.6) 

如 果 xlc(zx) 是 高 斯 的 ， 那 么 上 式 等 价 于 均 方 误差 。 如 果 输 入 x, 是 一 个 二 元 变量 
或 者 被 认为 是 二 项 分 布 的 ， 那 么 代价 函数 为 

-logP(x | e(x)) =~ F xiloghi(e(x)) + (1 ~a)log(1 -fi(e(x))) 




















(4.7) 
式 中 , fC ) 被 称 为 解码 器 ， 并且 f(c(x) ) 是 网 络 产 生 的 重 构 ， 在 这 个 情形 下 应 
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该 是 一 个 值 域 在 (0，1) 之 间 的 向 量 ， 例 如 sigmoid 函数 的 输出 。 我 们 希望 编码 
c(z) 是 一 个 可 以 捕获 数据 中 主要 变化 因素 的 分 布 式 表示 。 因 为 c(x) 被 视 为 x 的 
一 个 有 损 的 压缩 ， 它 不 可 能 对 所 有 的 x 都 是 一 个 很 好 的 压缩 ( 带 有 小 的 信息 损 
失 ) 。 因 此 ， 我 们 不 期 望 它 能 胜任 所 有 输入 的 重 构 ， 而 是 通过 学 习 ， 了 驱动 它 成 为 
对 训练 样本 的 好 的 压缩 方法 ， 并且 有 希望 对 于 其 他 输入 也 做 得 同样 好 (这 正 是 
自动 编码 器 泛 化 的 意义 ) 。 

这 一 方法 的 一 大 值得 慎重 考虑 的 问题 是 .如果 不 加 其 他 限制 ， 一 个 带 有 n 维 
输入 和 至 少 n 维 的 编码 的 自动 编码 器 可 能 只 学 习 到 了 一 个 将 输入 映射 到 自己 的 等 
值 函数 ， 这 样 编码 的 意义 就 不 存在 了 。 令 人 吃惊 的 是 ， 实 验 测试 的 结果 :表明 ， 
实际 上 ， 当 我 们 使 用 随机 梯度 下 降 法 ， 带 有 比 输入 更 多 的 隐藏 单元 的 (我 们 称 
pie Wale irene eet 产生 非常 有 用 的 表示 (“有 用 ”是 指 在 
把 该 表示 作为 一 个 分 类 器 的 输入 时 ， 分 类 误差 会 较 小 ) 。 一 个 简单 的 解释 是 基于 
这 样 的 发 现 : 带 有 提前 终止 的 随机 梯度 下 降 类 似 于 参数 的 & 正则 化 I。 为 了 
得 到 连续 输入 的 完美 重 构 ， 一 个 带 有 非 线 性 隐藏 单元 的 单 隐 层 自动 编码 器 在 第 一 
层 需 要 非常 小 的 权重 (以 此 带 来 隐藏 单元 在 其 线性 区 域 的 非 线 性 变化 特性 ) ， 而 
在 第 二 层 则 需要 非常 大 的 权重 。 对 于 二 值 变 量 的 输入 ， 我 们 也 需要 非常 大 的 权重 
来 完成 重 构 误差 的 最 小 化 。 隐 式 或 显 式 的 正则 化 使 得 产生 带 有 很 大 权重 的 参数 解 
非常 困难 ， 于 是 最 优化 算法 只 会 寻 得 一 个 对 训练 样本 表现 良好 的 编码 ， 而 这 正 是 
我 们 希望 看 到 的 。 这 表明 这 个 表示 能 挖掘 训练 集 上 的 统计 规律 ， 而 不 是 得 到 一 个 
简单 的 恒 等 函 数 。 

还 有 另 一 些 方式 也 可 以 避免 带 有 多 于 输入 的 隐藏 单元 的 自动 编码 器 学 习 得 到 

个 恒 等 函 数 。 并 且 用 这 些 方法 ， 我 们 依旧 可 以 得 到 输入 的 有 用 的 隐 层 表示 。 相 
比较 于 隐 式 或 显 式 的 权重 正则 化 来 约束 编码 ， 一 大 技巧 就 是 在 编码 中 增加 一 些 干 
扰 波动 。 这 正 是 受 限 玻 尔 兹 曼 机 所 做 的 ， 我 们 将 在 之 后 展开 。 另 外 有 一 种 已 被 发 
现 非 常 成 功 的 技巧 ”25022502 ， 是 基于 一 种 对 编码 的 稀 玻 约束 。 有 趣 的 是 ， 
过 这 些 方法 被 提高 的 权重 与 哺乳 动物 视觉 系统 的 主要 区 域 V1 和 V2 之 中 的 神 
ATR ZB" 的 性 质 非常 吻合 。 我 们 将 在 7. 1 节 详 细 讨 论 稀 玻 性 的 问题 。 
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管 稀 玖 性 和 正则 性 减少 了 隐 层 的 表示 能 力 ， 并 以 此 避免 学 习 到 恒 等 函 数 ， 
但 受 限 玻 尔 兹 曼 机 还 是 可 以 有 很 大 的 模型 容量 ， 并 且 依 旧 不 会 学 习 到 恒 等 变 换 。 
这 是 因为 它 不 仅 试图 对 输入 进行 编码 ， 而 且 还 通过 采用 近似 方法 最 大 化 生成 模型 
的 似 然 度 ， 找 到 了 输入 特征 的 统计 结构 。 上 自动 编码 器 中 也 有 一 些 帝 有 受 限 玻 尔 效 
曼 机 性 质 的 变种 ， 它 们 被 称 为 降 噪 自动 编码 器 。 降 噪 自动 编码 器 首先 对 输入 
特征 进行 随机 有 损 的 变换 ， 之 后 训练 模型 使 其 最 小 化 重 构 输入 的 误差 。 可 以 证 
明 ， 这 等 价 于 最 大 化 一 个 生成 模型 的 对 数 似 然 度 的 下 界 。 具 体 细 广 将 在 7.2 节 展 
开 。 














5 
能 量 模型 和 玻 尔 兹 曼 机 


深度 置信 网 络 是 基于 受 限 玻 尔 效 曼 机 的 ， 而 受 限 玻 尔 效 曼 机 是 典型 的 能 量 模 
型 。 在 本 章 我 们 将 介绍 一 些 主要 的 数学 概念 ， 这 将 有 助 于 次 刻 理 解 能 
中 也 包括 著名 的 对 比 散 度 算法 。 


5.1 能 量 模型 和 专家 乘积 系统 


能 量 模型 将 标量 形式 的 能 量 值 与 目标 变量 的 配置 相关 联 "”"%”*] 。 学 习 指 的 
是 修改 这 个 能 量 模 型 函数 ， 使 其 形状 满足 所 期 望 的 性 质 。 比 如 ， 一 个 可 靠 的 理想 
变量 配置 应 该 具有 和 较 低 的 能 量 。 基 于 能 量 的 概率 模型 可 以 使 用 能 量 函 数 来 定义 概 
率 分 布 ， 如 下 所 示 : 











— Energy( x) 


E 
page 


(5.1) 
CHE EEE ELEC FT a, M EARE A PE, TEROR FE tt A Bc 
Energy (x) A (0) .中 (xz) 的 形式 。 下 面 我 们 将 会 得 到 ， 给 定 一 层 时 另 一 层 的 
条 件 概率 分 布 (如 在 RBM 中 )， 可 以 采用 指数 族 分 布 中 的 任 一 形式 1。 尽管 所 
有 的 概率 分 布 都 可 以 转换 为 能 量 模型 ， 但 对 许多 特别 的 概率 分 布 而 言 (如 指数 
族 ) ， 推 理 和 学 习 过 程 可 以 借助 分 布 的 特殊 形式 而 得 到 简化 。 当 然 ， 也 有 一 些 学 
PEE ELT AE A SY [in] EO 。 
归 一 化 因子 Z 被 称 为 配 分 函数 ， 它 是 物理 系统 定义 的 推广 ， 其 定义 如 下 : 


a Ye EH (5.2) 
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这 里 如 果 * 是 离散 的 输入 空间 则 进行 求 和 ， 如 果 x 是 连续 的 输入 空间 则 做 积分 。 
即使 当 Z 上 的 求 和 或 求 积 不 存在 时 ， 也 能 定义 能 量 模型 〈 详 见 第 5. 1.2 节 ) 。 
在 专家 乘积 系统 ' "1 公式 中 ， 能 量 函 数 是 各 个 式 子 的 求 和 ， 而 每 一 项 都 与 
一 个 “专家 ”上 广 相 联系 : 
Energy(x) = Di fi(x) a 
即 
P(x) < [][ P(x) < [Jew (5.4) 
因此 每 一 个 专家 P,(x) 可 以 被 认为 是 对 不 合理 的 x MEAR, BACAR 
地 ， 是 一 个 x 上 的 约束 。 如 果 考 虑 下 面 这 个 特例 ， 就 更 容易 理解 了 : f) 只 能 
取 两 个 值 ， 一 个 (UME) 表示 约束 被 满足 ， 另 一 个 (大 值 ) 表示 未 被 满足 ， 这 
时 ，P,(x) 很 明显 只 有 两 个 检测 结果 可 以 输出 。 文 献 [69] 解释 了 “专家 乘积 系 
统 ” 相 对 于 “混合 专家 模型 ” (Mixture of Experts) 的 优势 。 专 家 乘积 系统 使 用 
了 概率 乘积 蔡 代 了 混合 专家 模型 中 的 概率 加 权 求 和 。 为 简化 问题 ， 这 里 假设 每 个 
“专家 ”对 应 于 一 个 约束 条 件 ， 其 取 值 只 能 是 “满足 ”或 者 “破坏 ”。 那 么 在 混 
合 专家 模型 中 ， 每 个 专家 对 应 的 约束 条 件 就 指明 了 数据 所 属于 的 特定 区 域 ， 而 这 
些 区 域 与 其 他 区 域 是 互 斥 的 。 专 家 乘积 系统 则 不 同 ， 其 优势 在 于 ， 一 系列 专家 
f(x) 组 成 了 一 个 分 布 式 表 示 : 与 混合 专家 模型 中 每 个 区 域 一 个 专家 的 空间 划分 
方式 不 同 ， 它 根据 所 有 可 能 的 配置 来 划分 空间 (这 里 每 个 专家 决定 它 的 约束 条 
件 是 否 被 破坏 )。 文 献 [69] 给 出 了 式 (5.4) 中 对 logP(x) 求 参数 梯度 的 方法 ， 
这 个 方法 是 对 比 散 度 算法 (5.4 节 ) 的 第 一 个 实例 。 


























5.1.1 隐 变 量 的 引入 


在 许多 情况 下 ,x 有 许多 成 分 变量 x;,， 并 且 我 们 没有 同时 观测 到 所 有 这 些 变 
量 ， 或 者 是 我 们 想 引入 一 些 未 观测 变量 来 增加 模型 的 表达 能 力 。 因 此 ,我们 认为 
变量 有 观测 部 分 ( 仍 表示 为 x) ， 以 及 隐藏 部 分 有 

— Energy(x,h) 


e 


P(x,h) = 7 





(5.5) 
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同时 由 于 只 有 x 被 观测 到 ， 所 以 我 们 关心 的 是 边缘 概率 
—Energy(x,h) 
P(x) = De ee) 
在 这 种 情况 下 ， 为 了 将 该 形式 推导 至 类 似 于 式 (5.1) 的 形式 ， 我 们 引入 “自由 
fE” (Free Energy) 〈 受 物理 学 的 启发 ) ， 并 定义 如 下 : 


—FreeEnergy(x) 


P(x) = (5.7) 











式 中 ， ian + ees ， 即 

FreeEnergy(x) = 一 log 之 i as (5.8) 
因此 ， 自 由 能 就 是 一 个 对 数 域 中 进行 边缘 化 的 能 量 。 于 是 数据 的 对 数 似 然 的 梯度 
将 会 是 一 个 有 意思 的 形式 。 我 们 引入 9 来 表示 模型 的 参数 。 从 式 (5.7), RN 
可 以 得 到 


dlogP(x) a OFreeEnergy (x) 5 1 J Perea E) dFreeEnergy(x ) 
00 7 00 00 











x 








dFreeEnergy(x) -、 dFreeEnergy( x ) 
T + re) a (5.9) 


所 以 ， 在 训练 集 上 平均 的 对 数 似 然 梯度 为 
_f dlogP (x) ] _ _ | 0FreeEnergy (x) oFreeEnergy (x) 
£| a0 |- -Es| 00 | a0 | 0 


这 里 在 x WAZA, P 表示 训练 集 的 实际 分 布 ， 5, 表示 在 分 布 P 下 的 期 望 。 
如 果 我 们 能 对 P 进行 采样 ， 并 计算 其 自由 能 ,我们 就 能 应 用 蒙特 卡 罗 算 法 来 得 
到 对 数 似 然 梯度 的 随机 佑 计 值 。 

如 果 能 量 可 以 被 表示 为 一 组 求 和 式 ， 式 中 的 每 一 项 至 多 与 一 个 隐藏 节点 相 
关 ， 如 下 所 示 : 








Energy(x,h) = -B(x) + È, y,(x,h,) (5.11) 
这 也 是 受 限 玻 尔 效 曼 机 情况 下 满足 的 条 件 ， 那 么 自由 能 以 及 似 然 度 的 分 子 部 分 都 
可 以 被 精确 计算 得 到 (即使 这 里 的 求 和 是 对 指数 级 个 式 子 进行 的 ) : 


1 —Freek, p(x) 1 -Energy(x,h) 
P x = Pai ree. nergy x = aN e nergy x, 
aay a Z py 
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ZEEE -E nah) 


-了 了 E 2 oft) Ter 


hy 
(x) 


= E Ye (x,h;) Cap ales e 








emean (5. 12) 
AP, DY 是 对 h, 所 有 可 能 取 值 的 求 和 (比如 ,在 通常 的 二 值 化 取 值 的 例子 里 


面 ， 可 取 0 和 1 两 个 值 ) 。 请 注意 ， 该 求 和 比 之 这 个 对 及 所 有 值 的 求 和 要 容易 
许多 。 同 时 如 果 严 是 连续 的 ， 所 有 的 求 和 将 被 积分 代 蔡 ， 而 其 他 原理 相同 。 在 
许多 我 们 所 感 兴趣 的 情况 下 ， 对 单个 隐 层 节点 值 的 求 和 或 积分 是 容易 求 得 的 。 对 
于 似 然 度 的 分 子 部 分 〈 也 即 自 由 能 部 分 ) ， 在 上 述 例子 中 可 以 精确 计算 ， 其 中 


Energy(x,h) =-6(x) + $, y,(x,h;) ， 同 时 


FreeEnergy(x) =- logP(x) - logZ =- B(x) - > log >, emam (5,13) 
i h; 


5.1.2 条 件 能 量 模型 





虽然 计算 配 分 函数 通常 比较 困难 ,但 是 如 果 我 们 的 最 终 目 标 是 在 给 定 x 情况 
下 对 变量 y 做 决策 ， 而 不 是 考虑 所 有 可 能 的 (x,，y) 配置 ， 那么 仅 考 虑 对 每 个 给 
定 的 x 下 的 y 配置 即 可 。 通 常情 况 是 y 只 能 在 一 个 小 的 有 限 离散 集合 中 取 值 ， 那 么 


P(ylx) = (5. 14) 


pom 
FECAL T, IEE PRCA AR 条 件 对 数 似 然 度 对 参数 的 梯度 值 可 以 被 高 效 的 计算 出 
来 。 这 一 公式 可 以 应 用 于 受 限 玻 尔 效 曼 机 模型 的 一 个 鉴别 型 模型 的 变种 一 一 鉴别 
性 限制 玻 尔 效 曼 机 '"”: 。 这 种 条 件 能 量 模型 也 被 运用 到 一 系列 基于 神经 网 络 的 概 
率 语言 模型 中 ”290.93 。 上述 公式 (更 一 般 的 情况 是 ， 配 分 函数 中 各 项 
的 取 值 可 以 很 容易 求 和 或 者 取 极 大 值 ) 在 早期 已 经 得 到 详尽 的 研 
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FECT NOMS] 。 后 面 工作 中 一 个 重要 且 有 意思 的 性 质 是 ， 这 种 能 量 模型 不 仅 可 
以 针对 对 数 似 然 度 去 做 优化 ， 也 可 以 采用 更 一 般 的 准则 计算 梯度 ， 使 得 正确 响应 
的 能 量 下 降 的 同时 ， 其 他 竞争 性 响应 的 能 量 却 是 增加 的 。 这 类 能 量 函 数 并 不 一 定 
会 产生 概率 模型 ( 因为 这 种 负 的 能 量 函 数 的 指数 并 不 一 定 需 要 可 积 ) ， 但 它们 会 
生成 一 个 给 定 x 下 选择 y 的 函数 ， 而 这 往往 正 是 应 用 程序 的 终极 目标 。 当 然 ， 当 
y 具 有 有 限 取 值 可 能 时 ，P(ylx) 总 是 能 够 计算 ， 因 为 能 量 函 数 只 需要 在 所 有 可 
能 的 y 取 值 下 被 归 一 化 就 可 以 了 。 


5.2 SRE SPL 











DEK LK SL ae EL a Be Et HY BE ee PAT SK, IT SZ BRI AR KS DLE 
其 特殊 形式 ， 它 的 P(hlx) 和 P(xlh) 都 可 求 ， 因 为 它们 是 可 以 分 解 的 。 在 玻 尔 
ASHT 中， 能 量 函 数 通常 是 一 个 二 阶 多 项 式 : 

Energy(x,h) = -b'x -c'h -h'Wx -x'Ux —h'Vh (5.15) 
式 子 里 包含 了 两 类 参数 ， 我 们 将 它们 统称 为 6: WME b, M e; 是 一 类 ， 分 别 对 应 
向 量 x 或 有 中 的 某 一 个 元 素 ， 男 一 类 是 权重 W, UM 有 态 ， 每 个 对 应 于 一 对 单元 
节点 〈 表 示 节 点 之 间 的 关系 ) 。 和 矩阵 忆 和 了 通常 是 对 称 和 矩阵 ? ， 且 多 数 情况 下 对 
角 线 为 零 。 采 用 非 零 的 对 角 线 则 会 产生 其 他 变种 ， 比 如 ， 高 斯 分 布 而 非 二 项 式 分 
布 的 情况 |]。 

由 于 上 式 中 有 中 的 元 素 存 在 二 次 交叉 项 ， 如 式 (5.12) 这 样 解析 地 计算 自 
由 能 的 方法 在 这 里 并 不 适用 。 然 而 ，MCMC (蒙特 卡 罗 马 尔 可 夫 链 的 ) 采样 方法 
可 以 用 在 这 里 ， 得 到 一 个 对 梯度 的 随机 估计 器 。 对 数 似 然 度 的 梯度 可 以 由 式 
(5.6) 表示 如 下 : 


























名 “比如 ， 如 果 忆 非 对 称 ， 那 么 将 浪费 额外 的 自由 度 ， 因 为 总 Uixi +xjUix; 可 以 被 写作 

















Vi( Uyt Ua) pa Us + Ui)xj + i Uy + Ui )x;， 也 即 被 表示 为 对 称 和 矩阵 的 形式 。 
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—Energy(x.h —Energy( x ,h) 
log D et alog Ec 
h xh 





dlogP(x) _ 
00 a0 06 
2 1 yw OEnergy (xh) 
一 了 e Energy(x,h) 2 e 00 7 
h 
psi OPnergy(x,h) 
> p Teeth) 之 s 00 d A 
xh 
xh 
=- E Peh ir) Baek) . S pce) ergy By 
h xh 


WEE, dEnergy(x,h)/d0 是 很 容易 计算 的 。 因 此 如 果 我 们 有 采样 P (hl x) 和 
P(x h) 的 方法 ， 我 们 就 能 得 到 针对 对 数 似 然 度 的 无 偏 估计 值 。 文 献 [1，76， 
77] 中 介绍 了 以 下 的 方法 : 

在 “ 正 相 阶 段 ", x 被 指定 为 输入 的 观测 向 量 ， 那 么 我 们 给 定 x， 对 有 采样; 
在 “ 负 相 阶段 ”"， 理 想 情 况 下 x 和 有 都 从 模型 本 身 采 样 。 一 般 情 况 下 只 有 近似 采 
样 可 以 求 得 ， 比 如 采用 迭代 步骤 构建 一 个 MCMC。 文献 [1, 76, 77] 中 介绍 的 
MCMC 采样 方法 基于 吉 布 斯 采样 ”1 。W 个 随机 变量 S$ = (3 ,$,,…,Sv) 的 联合 
吉 布 斯 采样 是 通过 NN 个 形式 为 

S,~P(S,|S_, =s_;) (5.17) 

的 序列 采样 子 步骤 来 完成 的 。 其 中 5 _,; 包 含 了 5 中 除了 S: 之 外 的 N -1 个 其 他 随 
机 变量 。 经 过 这 WN 个 采样 步 又 后 ， 这 条 链 的 一 次 采样 就 完成 了 ， 提 供 了 S 的 一 
个 采样 数据 点 ， 而 当 采 样 次 数 接近 ， 在 一 定 条 件 下 其 分 布 将 收敛 于 P(S) A 
限 状态 马尔 可 夫 链 可 收敛 的 一 个 充分 条 件 是 它 的 非 周期 性 ? 以 及 不 可 约 性 2 。 

我 们 应 该 怎样 在 玻 尔 效 曼 机 中 进行 吉 布 斯 采样 呢 ? s= (xh) 表示 玻 尔 效 曼 
机 中 的 所 有 单元 ，s _, 表 示 除 第 i 个 单元 之 外 的 其 他 所 有 单元 的 值 的 集合 。 玻 尔 兹 












































四” 非 周期 性 : 给 定 周期 上 >1， 没 有 任何 状态 是 有 周期 的 。 这 里 一 个 状态 有 周期 上 是 指 ， 当 且 仅 当 经 








过 t+hk，t+2% 等 时 刻 ， 这 个 状态 能 转移 到 它 本 身 。 

















O 不 可 约 性 ; 一 个 状态 经 过 有 限 次 数 后 可 以 以 非 零 概率 到 达 任 意 状态 。 
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曼 机 的 能 量 函 数 可 以 改写 为 将 所 有 参数 放 在 一 个 向 量 d 和 一 个 对 称 和 矩阵 4 中 ， 

Energy(s) = -d's -s'As (5. 18) 
Sd _, 表 示 除 去 元 素 d; ZAM td, A_ RBA TI i TA i FN I 
A, a ,表示 去 除了 第 i 个 元 素 的 4 中 的 第 i 个 行 向 量 (或 列 向 量 )。 使 用 这 样 的 
标记 ,我 们 就 能 得 到 在 玻 尔 兹 曼 机 中 比较 容易 进行 计算 和 采样 的 概率 分 布 
Pls;1s_;)。 比 如 ， 如 果 s, e 10,1} 以 及 4 的 对 角 线 为 空 : 


exp(d, +d’_,s_,+2a'_s_,+s'_A_s_,) 
exp(d, +d’ _,s_,+2a'_s_,+s',A_sS_,) 





P(s,=1ls_,) = 
+exp(d’_js_,+s'_A_js_;) 


__exp(d; +2a'_js_;) | 1 
~ exp(d, +2a'_,s_,) +1 1+exp( -d, -2a'_,s_,) 





(5. 19) 


=sigm(d, +2a’_,s_;) 

在 人 工 神 经 网 络 中 ， 以 上 公式 本 质 上 就 是 用 其 他 神经 元 8 _, 来 计算 某 神 经 元 输出 
的 常见 形式 。 

因为 每 个 x 样本 都 需要 两 组 MCMC 链 (一 组 为 正 相 阶段 ， 一 组 为 负 相 阶 
段 ) ， 计 算 梯度 的 开销 非常 大 ， 导 致 训练 时 间 很 长 。 这 是 本 质 上 为 什么 玻 尔 效 曼 
机 在 20 世纪 80 年 代 被 多 层 神经 网 络 的 反 向 传播 算法 所 取代 的 原因 ， 而 后 者 相应 
成 为 主流 的 学 习 方 法 。 但 是 ， 最 近 有 研究 表明 短 链 有 时 可 以 被 成 功 应 用 ， 这 也 是 
运用 对 比 散 度 方法 来 训练 受 限 玻 尔 效 曼 机 的 主要 原理 ， 将 在 5. 4 节 进 行 讨论 。 值 
得 注意 的 是 负 相 阶段 链 并 不 需要 针对 每 个 样本 x 重新 计算 (因为 这 不 依赖 于 训 
练 数据 ) ， 这 一 现象 在 持续 性 MCMC 估计 器 中 得 到 了 利用 ， 并 将 在 第 


5.4.2 节 进 行 讨 论 。 


5.3 SEM BL 


受 限 玻 尔 兹 曼 机 是 深度 置信 网 络 的 基本 组 成 模块 。 它 与 深度 置信 网络 的 各 个 
层 间 共享 参数 ， 同 时 也 具有 高 效 的 学 习 训练 算法 。 图 4.5 中 给 出 的 是 一 个 受 限 玻 
尔 兹 曼 机 的 无 向 图 模型 ， 在 已 知 x 的 条 件 下 h, 相互 独立 ， 在 已 知 严 的 条 件 时 候 
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x 相互 独立 。 在 受 限 玻 尔 效 曼 机 中 , 式 (5.15) 中 U=0 且 V=0， 即 只 有 隐藏 
层 和 可 视 层 的 层 间 有 连接 ， 而 层 的 内 部 没有 连接 。 这 种 形式 的 模型 最 先 被 称 作 
“KRAI” (Harmonium) "| ， 相 关 的 学 习 算 法 (不 仅 是 玻 尔 兹 曼 机 ) 在 如 下 
文献 [51] 中 有 相似 讨论 。 近 年 来 ,一 些 经 过 实验 验证 的 高 效 学 习 算法 也 被 不 
断 提出 来 ， 可 参见 文献 [31, 70, 200], 

由 于 输入 节点 与 输入 节点 、 隐 藏 节点 与 隐藏 节点 之 间 无 连接 ，RBM 的 能 量 
函数 是 双 线 性 的 ， 即 

Energy(x,h) = -b'x -c'h —h'Wx (5. 20) 

xt (5.11) 和 式 (5.13) 可 以 用 B(x) =b'x M y,(x,h,) = -h; (c + Wax) ER, 
对 输入 的 自由 能 进行 因 式 分 解 。 其 中 ，W, 表示 向 量 下 的 第 i 行 。 因 此， 对 于 输 
入 的 自由 能 ( 即 ， 它 的 非 归 一 化 对 数 域 的 概率 ) 可 以 这 样 有 效 地 计算 : 


FreeEnergy(x) =- b'x - >» log >; ge (5. 21) 
i hi 








由 于 Energy(x, h) WAT h WAWER, EHI (5.12) 中 相同 的 因 式 分 解 
技巧 ， 我 们 很 容易 得 到 条 件 概 率 P(x 1h) 

exp(b'x + c'h + h'Wx) 

> exp(b'x + c'h + h'Wx) 


exp(c,h, + h,W,x) 
I] P l l l l 





P(hix) = 





g II ¥ expl eih, + h,Wx) 
i i 


exp(h;(¢; + Wx) ) 
i Dexp(h.(c, + Wx)) 


= [] P(A, Ix) 
在 大 多 数 情况 下 , he {0,1}, 于是， 给 定 一 个 神经 元 的 输入 ， 我 们 可 以 给 出 一 
般 的 计算 神经 元 输出 的 公式 : 





ci+ Wix 
P(h, = 11x) =T owe = Sigm( Ci + Wx) (5.22) 
one 
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由 于 在 能 量 函 数 中 x 和 严 的 角色 是 对 等 的 ， 我 们 可 以 用 类 似 的 推导 方法 ， 有 效 地 
计算 和 采样 P(x lh) 





P(x th) = [P(x ih) (5. 23) 
在 二 值 情况 下 ， 
P(x,=11h) =sigm(b, + Wh) (5. 24) 

其 中 W 是 W 的 第 j 列 。 

在 文献 [73] 中 ， 对 于 二 项 式 输入 单元 , 假设 它们 是 二 值 事 件 的 概率 ， 可 
将 它们 用 于 对 输入 图 像 中 的 像素 灰 度 级 进行 编码 。 在 手写 字符 图 像 的 情况 下 ， 这 
种 近似 效果 很 好 ， 但 在 其 他 情况 下 ， 并 没有 很 好 的 效果 。 在 文献 [17] 中 的 实 
验 ， 描 述 了 当 输 入 是 连续 值 时 ， 使 用 高 斯 输入 单元 而 不 是 二 项 式 单 元 的 优势 。 文 
献 [200] 中 给 出 了 一 个 通用 公式 ， 其 中 x 和 严 在 给 定 另 一 个 变量 时 ， 可 以 是 任 
何 指数 族 分 布 (离散 的 和 连续 的 )。 

尽管 受 限 玻 尔 兹 曼 机 可 能 无 法 有 效 地 表示 一 些 能 用 非 受 限 玻 尔 兹 曼 机 紧凑 地 
表示 的 分 布 ， 但 如 果 使 用 足够 的 隐藏 单位 ， 受 限 玻 尔 兹 曼 机 可 以 表示 任何 离散 的 
aye) 。 此 外 ， 可 以 证 明 ， 除 非 受 限 玻 尔 效 曼 机 已 经 完美 的 表达 了 训练 数据 
的 分 布 ， 增 加 隐 层 单元 (并 适当 地 选择 其 权重 和 偏 移 ) 总 是 可 以 提高 对 数 似 
BRE 。 

如 图 3.2 所 示 ， 受 限 玻 尔 效 曼 机 也 可 以 理解 为 构建 多 重 聚 类 (参见 第 3.2 
节 ) 。 每 个 隐藏 单元 创建 输入 空间 两 区 域 的 分 区 (具有 线性 的 分 隔 )。 当 考虑 三 
个 隐藏 单元 的 配置 时 ， 存 在 三 个 半 和 平面 可 能 产生 对 应 的 八 个 交叉 (每 次 从 某 个 
隐藏 单元 进行 线性 分 离 所 得 到 的 两 个 半 平 面 中 选取 一 个 ， 三 个 隐藏 单元 即 有 八 种 
组 合 ) 。 这 八 个 交叉 每 一 个 都 对 应 于 输入 空间 中 的 一 个 区 域 ， 这 个 区 域 具 有 与 它 
们 相同 的 隐藏 配置 〈 即 编码 ) 。 因 此 ， 隐 藏 单 元 的 二 值 化 设置 ， 可 以 标识 输入 空 
间 中 的 一 个 区 域 。 对 于 某 个 区 域 中 的 所 有 x, SRE h 配置， P(hlx) 是 最 
大 的 。 需 要 注意 的 是 ， 并 非 隐 藏 单元 的 所 有 配置 都 对 应 于 输入 空间 中 的 非 空 区 
域 。 如 图 3. 2 所 示 ， 该 隐藏 单元 的 表示 与 一 组 二 又 树 的 集成 器 的 效果 类 似 。 

我 们 可 以 把 在 受 限 玻 尔 效 曼 机 中 所 有 可 能 的 隐藏 层 配置 上 求 和 看 作 一 种 带 着 
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首 数 级 部 件 的 加 权 概 率 混合 模型 (相对 于 隐藏 单元 和 参数 的 数目 ) : 

P(x) = È P(x lh) PCh) (5. 25) 
式 中 ，P(x1h) 是 与 配置 hh 对 应 的 组 分 的 概率 模型 。 例 如 ， 如 果 P(x1h) 被 选择 为 
斯 (参见 文献 [200，17]) ， 当 严 具 有 个 比特 时 ， 这 是 具有 2" 个 组 分 的 混 
高 斯 模型 。 当 然 ， 这 些 2" 个 组 分 的 参数 不 能 独立 地 调整 ， 因 为 它们 之 间 具 有 
共享 关系 〈 受 限 玻 尔 效 曼 机 的 参数 ) 。 并 且 这 也 是 该 模型 的 优势 ， 因 为 它 可 以 推 
广 到 训练 样本 中 没 出 现 过 的 配置 (输入 空间 的 区 域 ) 中 去 。 我 们 可 以 看 到 ， 与 
组 分 hh 相关 联 的 高 斯 均值 (在 高 斯 情况 下 ) 是 线性 组 合 bp + Wh， 即 每 个 隐藏 单 
元 位 h, 贡献 了 均值 中 的 向 量 W, 
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5.3.1 受 限 玻 尔 兹 曼 机 中 的 吉 布 斯 采样 














从 受 限 臻 尔 效 曼 机 中 采样 是 很 有 用 的 ， 这 是 由 于 : 一 是 它 在 学 习 算法 上 很 有 用 ， 
可 以 获得 对 数 他 然 的 梯度 ， 二 是 ， 分 析 从 模型 生成 的 样本 有 助 于 了 解 模型 是 否 获得 了 
数据 分 布 的 信息 。 由 于 在 深度 置信 网 络 的 最 上 方 的 两 层 是 受 限 玻 尔 效 曼 机 ， 从 受 限 玻 
尔 兹 曼 机 中 采样 使 得 我 们 能 从 深度 置信 网 络 中 采样 ， 这 将 在 6. 1 节 中 详 述 。 

在 全 连接 的 玻 尔 效 曼 机 中 进行 吉 布 斯 采样 是 很 慢 的 ， 因 为 网 络 中 有 多 少 个 节 
点 吉 布 斯 链 就 需要 多 少 步 。 而 受 限 玻 尔 效 曼 机 则 享有 因 式 分 解 带 来 的 两 个 好 处 : 
首先 ， 我 们 不 需要 在 正 相 阶段 采样 ， 因 为 自由 能 ( 和 它 的 梯度 ) 可 以 借助 解析 
的 方法 计算 导出 ; 第 二 ，(x, h) 中 的 变量 集合 可 以 通过 吉 布 斯 链 的 每 个 步骤 中 
的 两 个 子 步骤 采样 得 到 。 首 先 我 们 在 给 定 x 的 条 件 下 采样 万， 之 后 通过 在 给 定 瑟 
的 条 件 下 采样 新 的 x。 在 通常 的 专家 乘积 系统 中 ， 可 以 用 混合 蒙特 卡 罗 方法 来 代 
替 吉 布 斯 采样 '%29 。 这 里 的 混合 蒙特 卡 罗 是 MCMC 的 一 种 ， 在 这 个 方法 中 ， 马 
尔 可 夫 链 的 每 一 步 含有 许多 自由 能 梯度 计算 的 子 步 又 。 因 而 ， 受 限 玻 尔 效 曼 机 结 
构 是 专家 乘积 系统 的 一 个 特例 ， 在 式 (5.21) 中 ,log Se 的 第 i 项 对 应 一 
















































































个 “专家 ”， 即 每 个 隐藏 层 单元 都 对 应 一 个 专家 ， 同 时 每 个 输入 偏 置 也 对 应 一 个 
专家 。 这 样 特别 的 结构 使 得 吉 布 斯 采样 非常 高 效 。 下 面 展 示 了 从 一 个 训练 样本 开 
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始 ( 即 从 PP 中 采样 如 何 进行 到 吉 布 斯 采样 的 第 步 : 





ner 
h, ~P(hlx,) 
i (5. 26) 
hy ~ P(x) 


Xr ~P(xlh,) 
从 训练 样本 开始 这 个 链 是 有 道理 的 ， 因 为 随 着 模型 变 得 更 加 擅长 捕捉 训练 数据 中 


的 结构 ， 模 型 分 布 P 和 训练 分 布 也 变 得 更 相似 (两 者 拥有 类 似 的 统计 量 ) 。 注 


意 ， 如 果 我 们 从 模型 分 布 P 本身 开始 ， 它 将 收敛 在 第 一 步 ， 所 以 从 开始 是 一 
个 好 的 方式 ， 从 而 确保 只 走 必要 的 几 步 就 可 以 收敛 。 


对 比 散 度 是 一 种 用 来 到 近 对 数 似 然 梯度 的 方法 。 我 们 发 现 它 是 训练 受 限 政 尔 
兹 曼 机 时 的 一 种 成 功 的 参数 更 新 法 则 ”| 。 该 算法 的 伪 代 码 参 见 算 法 1， 其 中 针 
对 二 值 的 输入 和 隐藏 单元 的 情况 下 使 用 了 特定 的 条 件 分 布 公式 。 


5.4.1 对 比 散 度 的 算法 讨论 


为 了 构造 这 个 算法 ， 首 先 做 出 的 一 个 近似 是 ， 用 一 个 样本 代替 所 有 可 能 输入 
(st (5.10) 中 的 第 二 项 ) 的 平均 值 。 由 于 经 常 更 新 参数 (例如 ， 采 用 一 个 样本 
的 随机 梯度 下 降 更 新 或 者 使 用 若干 训练 样本 的 小 批量 块 梯度 更 新 ) ， 所 以 在 多 次 
连续 参数 更 新 的 过 程 中 就 已 经 完成 了 某 种 意义 上 取 平 均 的 操作 (这 种 方式 在 文 
献 [105] 中 已 经 显示 了 较 好 的 效果 ) 。 另 外 ， 随 着 连续 的 参数 更 新 ， 在 线 梯度 
更 新 的 过 程 中 可 以 部 分 的 消除 使 用 一 次 或 多 次 的 MCMC 采样 而 不 是 整体 加 和 所 
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带 来 的 额外 系统 方差 。 虽 然 会 因 梯 度 的 这 种 近似 引入 附加 的 方差 ， 但 它 与 在 线 梯 
度 下 降 所 引起 的 方差 相 比 是 差不多 的 (或 者 更 小 ) ， 因 而 ， 引 入 这 样 的 附加 方差 
也 不 会 有 太 大 的 副作用 。 

运行 一 个 步 长 较 长 的 MCMC 链 代价 仍然 是 很 高 的 。 这 里 需要 做 男 外 一 个 近 
似 : 使 用 一 个 简单 的 步 对 比 散 度 算法 (CD-F), CERERA THER 
偏差 : 从 观测 到 的 样本 开始 x, =x HEIT k RI MCMC 采样 z ，x,，…，xi,i。 在 
观测 到 x 后 ，CD -的 更 新 (不 是 对 数 似 然 梯 度 ) ， 可 以 得 到 


A9 en 2) _ ep x) (5.27) 


AIF, x =xi,1 是 马尔 可 夫 链 中 经 过 名 步 之 后 ,最 后 一 个 采样 的 得 到 的 样本 。 我 
们 知道 ， 当 kw ， 这 个 偏差 将 会 消失 。 我 们 还 发 现 ， 当 模型 的 分 布 与 经 验 分 布 





非常 接近 时 ， 即 P~P， 当 从 x 开始 启动 马尔 可 夫 链 (x 是 从 P 中 得 到 的 样本 ) 
时 ，MCMC 就 已 经 收敛 了 。 我 们 只 需要 走 一 步 就 可 以 得 到 PP 的 一 个 无 偏 的 采样 
样本 (BEES x 相关 )。 

一 个 令 人 惊讶 的 经 验 结果 是 ， 即 使 =1(CD -1) 也 通常 有 一 个 很 好 的 结果 。 
文献 [31] 给 出 了 CD -k 和 精确 的 对 数 似 然 梯 度 两 种 方法 的 详尽 数值 。 在 这 些 
实验 中 ,虽然 取 k>1 能 得 到 更 精确 的 结果 ， 但 就 算 k=1 也 通常 可 以 获得 非常 好 
的 近似 解 。 在 第 5. 4. 3 节 中 给 出 的 理论 结果 '" 1 ， 有 助 于 我 们 理解 为 什么 取 值 








算法 1 

RBMupdate (x«,, €, W, b, c) 

这 是 受 限 玻 尔 效 曼 机 的 更 新 程序 ， 单 元 的 取 值 是 二 值 的 ， 也 可 以 很 容易 推广 
到 其 他 取 值 的 情况 。 

xi 是 受 限 玻 尔 兹 曼 机 从 训练 数据 的 分 布 中 采样 得 到 的 一 个 样本 。 

e 是 对 比 散 度 算法 中 随机 梯度 下 降 的 学 习 率 。 

W 是 受 限 玻 尔 兹 曼 机 的 权 值 矩阵 ， 它 的 维度 由 隐藏 单元 数量 或 输入 单元 数 


量 决定 。 
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b 是 输入 单元 的 偏 置 。 

c 是 隐藏 单元 的 偏 置 。 

注意 : 0( 有 hh, =11x,) 是 一 个 向 量 ， 它 的 元 素 是 0 (hy, =11 x) 
for all 隐藏 单元 i do 


。 计算 0(h; =11xi) (对 于 二 值 单元 , sigm(c, + $, Wx)) 


© 从 0(hilxi) 中 采样 he 10,1] 
end for 
for all 可 视 单元 j do 


。 计算 P(x, =11h,) (对 于 二 值 单元 , sigm(b; + 之 Wh;)) 


° 从 P(x =11h, ) 中 采样 x, € 10,1} 
end for 
for all 隐藏 单元 ; do 


。 计算 0(h, =11x,) (对 于 二 值 单元 , sigm(c, + D, Wxy)) 


end for 
e Wo—W+e(hxi -0Q(h,=11x,)x;) 
© bb +e(x-x,) 


e cec +e(h, -Q(h, =11x,)) 


很 小 的 时 候 也 可 以 是 有 效 的 : CD -对 应 于 保持 收敛 到 对 数 似 然 梯度 的 前 
个 项 。 
一 种 解释 对 比 散 度 的 方式 是 : 它 在 近似 训练 样本 点 x, 附近 的 对 数 似 然 梯度 。 
采用 * =x, (对 于 CD -8) 的 随机 重 采 样 是 一 个 给 定 x, 的 分 布 ， 其 在 某 种 意义 
上 以 x 为 中 心 ， 并 且 随 着 增加 而 变 得 更 加 扩散 ， 直 至 成 为 模型 的 分 布 。CD -k 
更 新 会 降低 训练 样本 点 x, 的 自由 能 (这 意味 着 如 果 所 有 其 他 的 自由 能 保持 恒定 ， 


它 的 似 然 度 将 增加 ) ， 并 且 在 x, 附近 的 邻 域 中 增加 x 的 自由 能 。 值 得 注意 的 是 ， 
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x 在 x 的 邻 域内 ,但 同时 它 更 可 能 在 模型 的 高 概率 区 域内 (特别 是 更 大 时 )。 
正如 文献 [106] 所 指出 的 ， 对 于 能 量 模 型 ， 训 练 算法 最 需要 的 是 ， 使 观察 到 的 
输入 的 能 量 (自由 能 ， 即 边缘 化 隐藏 变量 ) 更 小 ， 转 移 能 量 到 其 余 区 域 ， 特 别 
是 在 低能 量 的 区 域 。 对 比 散 度 算法 由 两 种 情况 下 统计 数据 的 对 比 度 推动 进行 。 一 
种 来 自 真实 的 训练 样本 ， 男 一 种 来 自 马尔 可 夫 链 的 采样 。 正 如 将 在 下 一 节 进 一 步 
阅 述 的 那样 ， 我 们 可 以 将 无 监督 学 习 问 题 看 成 是 找到 这 样 一 个 决策 表面 : 它 可 以 
将 高 概率 区 域 (其 存在 许多 观测 到 的 训练 样本 ) 与 其 余 区 域 粗略 地 分 开 。 因 此 ， 
当 模型 产生 的 样本 在 决策 面 的 错误 一 侧 时 ， 我 们 会 给 予 一 定 的 惩罚 。 进 一 步 ， 确 
认 决 策 面 应 该 朝 哪 个 方向 移动 的 有 效 方式 ， 是 将 真实 的 训练 样本 与 来 自 模型 采样 
的 样本 进行 比较 。 

















5.4.2 ”对比 散 度 的 替代 算法 


在 受 限 玻 尔 效 曼 机 的 学 习 算 法 的 研究 中 ， 令 人 兴奋 的 最 新 进展 是 将 所 谓 的 持 
续 性 蒙特 卡 罗 马 尔 可 夫 链 应 用 于 负 向 阶段 52] ， 而 这 个 进展 采用 了 之 前 已 经 在 
文献 [135] 中 提出 的 方法 。 具 体 想法 很 简单 :保持 一 个 背景 MCMC 链 …x, 一 hh, 
一 Xp: 来 获得 负 向 阶段 的 样本 〈 应 该 来 自 模 型 ) 。 与 在 CD -k 中 进行 的 
短 链 不 同 ， 这 里 所 做 的 近似 是 : 忽略 沿 着 MCMC 链 移动 时 参数 是 不 断 变化 的 这 
一 事实 ， 即 与 传统 的 玻 尔 效 曼 机 学 习 算 法 不 同 ， 对 于 参数 的 每 个 值 并 不 构造 独立 
的 马尔 可 夫 链 。 可 能 由 于 参数 移动 缓慢 ， 这 种 近似 的 效果 很 好 ， 通 常会 产生 比 
CD -更 高 的 对 数 似 然 度 (实验 针对 和 =1 和 下 =10)。CD -1 PREMIER TH 
较 大 ， 但 均值 偏差 较 小 。 另 外 一 个 有 趣 的 现象 "| 是 : 模型 会 系统 性 地 远离 负 向 
阶段 中 获得 的 样本 ,并 且 这 个 现象 与 马尔 可 夫 链 本 身 相互 作用 ,会 防止 它 在 相同 
区 域 停留 时 间 过 长 ， 从 而 大 大 提高 了 马尔 可 夫 链 的 混合 速率 。 这 是 一 个 非常 理想 
和 之 前 不 可 预见 的 效果 ， 有 助 于 更 快 地 探索 受 限 玻 尔 效 曼 机 的 配置 空间 。 

另外 一 个 对 比 散 度 的 替代 算法 是 评分 匹配 中， 这 是 一 种 用 来 处 理 能 量 易 
计算 但 归 一 化 项 不 易 计算 的 能 量 模 型 的 通用 方法 。 概 率 密度 函数 p(x) =qg(x)/Z 
的 评分 函数 是 y= ( 9logp(x) ) /er ， 显 然 这 个 评分 函数 不 依赖 于 概率 密度 函数 中 
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的 归 一 化 项 ， 也 即 : yy = (ologg (x) ) /oz。 基 本 的 算法 思想 是 使 模型 分 布 的 评分 
函数 和 经 验 分 布 的 评分 函数 相 匹配 。 两 评分 函数 差 值 的 二 次 方 范 数 的 加 权 平 均值 
(在 经 验 密度 下 ) 可 以 写成 模型 的 评分 函数 的 二 次 方 项 和 二 阶 导数 ( 9"logq (x))/ 
ax? 的 形式 。 评 分 函数 匹配 已 经 被 证 明 是 局 部 一 致 的 ” ， 即 如 果 模 型 族 的 假设 
与 数据 生成 过 程 一 致 的 话 ， 它 将 会 收敛 。 这 种 方法 已 经 被 用 于 图 像 和 音频 数 
EOP 的 无 监督 模型 之 中 。 








5.4.3 吉 布 斯 链 模型 中 的 对 数 似 然 梯度 截断 





本 小 节 我 们 将 从 不 同 的 角度 考察 对 比 散 度 算法 ， 对 其 做 适当 推广 ， 以 及 探索 
它 和 重 构 误差 的 联系 。 重 构 误 差 经 常用 来 衡量 这 一 算法 的 性 能 ， 也 经 常用 来 优化 
训练 自动 编码 器 (ILA (4.6) ) 。 我 们 的 工作 基于 下 面 两 个 启发 : 第 一 个 启发 是 
(在 8.1 节 有 详 述 ) ， 吉 布 斯 链 可 以 看 作 无 限 的 有 向 图 模型 (这 里 利用 了 对 数 似 
然 梯度 的 展开 式 ) ; 二 是 ， 吉 布 斯 链 的 收敛 性 保证 了 对 比 散 度 方法 是 合理 的 ( 因 
为 当 吉 布 斯 链 的 采样 x 来 自 于 模型 的 概率 分 布 时 , 式 (5.27) 的 期 望 与 式 
(5.9) 相同 )。 尤 其 让 我 们 感 兴趣 需要 搞 清楚 的 是 : 与 真实 的 对 数 似 然 梯度 相 
比 ， 对 比 散 度 方法 得 到 的 梯度 有 多 少 偏差 。 

考虑 一 个 收敛 的 马尔 可 夫 链 x hx, 一 …， 它 的 转移 矩阵 由 一 系列 的 条 
件 概率 分 布 PC lz ) 和 P(x, 1 ) 所 确定 ， 初 始 的 wx 采样 于 训练 数据 的 经 验 概 
率 分 布 。 接 下 来 的 定理 (出 自 文献 [12]) 将 告诉 我 们 ， 当 t 宇 1 时， 对 数 似 然 
梯度 可 以 如 何 展开 。 

定理 $.1 考虑 一 个 收敛 的 吉 布 斯 链 hn, CIERRE x 是 
数据 集中 的 一 个 样本 点 。 我 们 可 以 把 对 数 似 然 梯度 展开 为 
























































ðlogP (x, ) ðFreeEnergy( x; ) dF reeEnergy (x, ) 
= 一 + E| + 
00 00 00 
dlogP 
tr (5. 28) 


SUP AY Sia SURE Bt HY ECF I CB 
因为 式 中 的 最 后 一 项 将 随 着 t 的 增 大 而 变 得 足够 小 ， 所 以 在 马尔 可 夫 链 的 第 
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上 步 做 截断 的 如 下 近似 是 合理 的 : 


dlogP(x,) _ ðFreeEnergy (x, ) : dF reeEnergy(x,,,) 
00 00 00 


只 要 我 们 把 其 中 期 望 用 一 次 采样 x =x, 代替， 就 正 是 前 面 的 CD -k IR ( 式 
(5.27) ) 。 这 告诉 我 们 CD -天 算 法 的 绝对 误差 是 EL ( dlogP(x%,,,)/00], Wat HE 
论 和 实践 的 双重 检验 ， 我 们 可 以 知道 CD -会 比 CD - (下 -1) 有 更 快 更 好 的 收敛 
性 ， 因 为 它 的 绝对 误差 会 更 小 (尽管 这 要 付出 更 多 的 计算 代价 ,也许 不 是 很 值 
得 ) 。 尽 管 CD -的 偏差 在 上 比较 小 的 时 候 确 实 会 很 大 ， 但 是 经 验 说 明 ，CD -k 
算法 仍然 可 以 在 大 部 分 情况 下 与 对 数 似 然 梯度 算法 在 相同 的 象限 空间 中 更 新 模型 
参数 。 就 算 k=1， 我 们 依然 可 以 得 到 好 结果 。 直 觉 上 我 们 可 以 这 样 理解 这 一 现 
象 : 当 输入 的 样本 x, 被 用 来 初始 化 马尔 可 夫 链 ， 即 使 是 马尔 可 夫 链 里 的 第 一 步 
(到 x,) BEMA x 出 发 走向 一 个 正确 的 方向 ， 也 就 是 说 ， 大 致 沿 着 从 wx 的 能 量 
降低 的 方向 走 。 因 为 梯度 取决 于 从 x, 到 x 的 改变 ， 我 们 一 般 会 得 到 一 个 正确 的 
梯度 方向 。 

所 以 CD -1 算法 意味 着 在 两 次 采样 后 截断 的 吉 布 斯 链 (一 次 采样 通过 
hil xi ， 一 次 采样 通过 x, | h,)。 那 如 果 我 们 在 第 一 次 采样 (thE h | x) 后 
就 截断 呢 ? 我 们 可 以 用 如 下 的 对 数 似 然 梯 度 的 展开 式 '""| 来 分 析 : 


dlogP(«,) _ = sgj e 
900 a0 00 





al 























(5. 29) 





如 果 我 们 对 第 一 个 期 望 做 平均 场 近似 ， 把 及 替换 为 hh Elh lx], MEREN 
有 根据 P(h, lx ) 生成 的 如 做 平均 ， 这 样 就 有 


dlogP(«,|h,) 1 ologP(xi lh, ) 
e| a0 加 a0 (3.00) 








如 果 我 们 就 像 在 CD 算法 中 一 样 ， 忽 略 式 (5.29) 中 的 第 二 个 期 望 (对 估算 对 数 
似 然 梯度 造成 一 个 额外 的 偏差 )， 把 式 (5.30) 的 右边 直接 当 作 更 新 的 方向 ， 即 
负 的 重 构 误差 的 梯度 





—logP(xilh,) 
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常常 用 来 训练 自动 编码 器 ( 见 式 (4.6), e(x) =E[hl«])°. 

至 此 我 们 发 现 了 截断 的 吉 布 斯 链 与 重 构 误差 、 对 比 散 度 算法 之 间 的 联 
系 。 如 果 对 吉 布 斯 链 做 一 阶 近 似 (一 次 采样 )， 就 与 重 构 误差 基本 相似 ( 桥 
梁 就 是 一 个 有 偏 的 平均 场 估计 ); 如 果 再 做 稍微 好 一 点 的 近似 (二 次 采样 )， 
就 是 CD -1 算法 (通过 一 个 采样 来 近似 期 望 ); 如 果 用 更 多 项 来 做 近似 ， 就 
是 CD -算法 (仍然 使 用 采样 来 近似 期 望 )。 请 注意 ， 重 构 误 差 可 以 被 确定 
地 计算 并 且 与 对 数 似 然 度 相关 ， 这 就 是 为 什么 在 用 对 比 散 度 算法 训练 RBM 
时 ， 我 们 用 它 来 跟踪 进度 。 


























5.4.4 把 模型 生成 的 样本 看 作 负 例 


在 这 一 小 节 ， 我 们 认为 能 量 模型 的 训练 可 以 通过 解决 一 系列 分 类 问题 来 实 
现 。 在 这 些 分 类 问题 中 ， 我 们 竭力 区 别 真 实 的 训练 数据 样本 和 模型 生成 的 样本 。 
在 玻 尔 兹 曼 机 学 习 算 法 和 对 比 散 度 算法 中 ， 一 个 重要 的 元 素 是 从 模型 中 采样 的 能 
力 。 这 里 的 采样 可 能 是 近似 的 。 文 献 [201] 提出 了 一 种 漂亮 的 方法 ， 来 理解 这 
些 样 本 在 改善 对 数 似 然 度 中 的 价值 。 我 们 先 不 那么 正式 地 解释 一 下 这 个 想法 ， 青 
将 它 形式 化 ， 并 通过 将 训练 数据 样本 与 模型 生成 样本 进行 分 类 的 准则 来 训练 一 个 
生成 模型 的 方法 进行 验证 。 

最 大 似 然 算法 希望 在 训练 数据 集 上 有 比较 高 的 似 然 度 ， 而 在 其 他 数据 上 表现 
比较 低 。 如 果 我 们 已 经 有 一 个 模型 并 且 和 希望 去 提升 这 个 模型 的 似 然 度 ， 那 么 将 模 
型 的 高 概率 区 域 和 训练 集 样本 所 在 的 区 域 进行 比较 会 告诉 我 们 应 该 怎样 更 新 模 
型 。 如 果 我 们 可 以 通过 一 个 决策 面 近似 地 分 离 训 练 样本 和 模型 样本 ， 那 么 我 们 可 
以 减 小 决策 面 一 侧 的 能 量 函 数 ( 那 一 侧 有 更 多 的 训练 样本 ) 并 且 增 加 男 一 边 的 
AE HE PRI (有 更 多 的 生成 样本 ) ， 以 此 来 提升 模型 的 似 然 度 。 从 数学 角度 看 ， 考 
虑 如 式 (5. 10) 所 示 的 对 FreeEnergy (x) 的 参数 〈 或 者 在 不 引入 隐藏 变量 的 时 候 ， 

















O MAR (5. 30) 的 平均 场 近似 计算 梯度 时 ， 是 否 应 考虑 加 是 否 依赖 于 9， 还 存在 一 定 的 争论 ， 
但 是 很 显然 它 与 自动 编码 器 有 联系 。 
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对 Energy (x) 的 参数 ) 的 对 数 似 然 函 数 的 梯度 。 假 定 已 有 一 个 高 度 正则 化 的 二 
ge ow oe eat aes 
样本 ， 而 且 产 生 一 个 非常 接近 的 概率 g(x) = P(y = 11z) (希望 正确 的 一 边 多 


一 些 )。 令 g(x) =sigm( -a(x))， 在 这 里 ，-a(x) 是 一 个 判别 函数 ,或 者 是 一 
个 未 归 一 化 的 条 件 对 数 概率 ， 就 像 自由 能 。 记 (z,y) 的 经 验 分 布 为 P，P, 为 当 y 
=i 时 的 x 的 分 布 。 假 疫 P(y =1) =P(y =0) =1/2, ABBA VS, Ejs[f(x,y)] = 





[f(x,1) ]P(y=1) +£5,[f(x,0) ]P(y =0) = 可 (有 [f(x,1)] +Es Lf(x,0)])。 


利用 这 个 结论 ， 概 率 分 类 器 的 平均 条 件 对 数 似 然 梯 度 可 以 写 为 
OlogP(yIlx)] _,, fo(ylogg(x) + (1 -7)log(1 -g(x))) 
| a0 | =5;| a0 | 





-He (a(x) -1 1) 242), E>, [4 (x) St) } (5.31) 


~1(-2 ps, [942] +4 ;, [2 ) 
其 中 最 后 一 条 等 式 是 因为 这 个 分 类 器 高 度 正则 化 ， 当 输出 的 权重 很 小 的 时 候 ， 
a(x) 接 近 0 且 g(x) ~1/2, PRA -g(x))~~q(x)。 当 我 们 把 服从 P, 的 训练 样 





本 视 作 正 例 (y=1) (也 就 是 说 ，P, =P)， 把 模型 生成 的 样本 看 作 负 例 (y =0， 
也 就 是 说 Py = P) ， 这 个 对 数 似 然 梯 度 的 表达 式 也 就 是 我 们 通过 能 量 模 型 得 到 的 
自由 能 的 形式 的 表达 式 (R (5.10) ) 。 它 的 梯度 也 类 似 于 我 们 在 对 比 散 度 算法 
中 得 到 的 那个 估计 ( 式 〈5.27) ) 。 一 个 理解 这 个 结论 的 方法 是 ， 如 果 我 们 能 够 
提升 分 类 器 分 离 训 练 样本 和 生成 样本 的 性 能 ， 我 们 可 以 通过 增加 在 训练 样本 上 的 
概率 来 提升 模型 的 对 数 似 然 度 。 实 际 中 ， 这 可 以 用 一 个 分 类 器 做 到 。 这 里 ， 分 类 
器 的 判别 函数 定义 为 一 个 生成 模型 的 自由 能 (取决 于 乘 性 因子 ) 并 且 假设 我 们 
能 从 模型 中 (近似 地 ) 采样 。 这 个 想法 的 一 个 变种 已 被 用 来 验证 一 种 类 似 助 扒 
算法 (Boosting) 的 增 量 算法 ， 这 种 算法 的 目的 是 为 专家 乘积 系统 增加 专家 [1 。 
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深层 结构 的 逐 层 贪心 训练 


6.1 深度 置信 网 络 的 逐 层 训练 





一 个 有 4 层 深 度 置 信 网 络 !31 的 可 观测 向 量 x 和 4 个 隐 层 的 IB AE 
如 下 : 


P(x, h!, =, ht) = (FI Po p P, h£) (6.1) 
k=0 


这 里 x = 有, PCN | nh) 是 受 限 玻 尔 效 曼 机 中 给 定 隐藏 层 时 的 可 视 层 的 条 件 分 
布 ， 深 度 置 信 网 络 中 第 左 层 与 这 个 受 限 玻 尔 效 曼 机 相对 应 。P(H , ht) 是 在 深 
度 置信 网 络 中 顶层 的 受 限 玻 尔 效 曼 机 的 联合 概率 分 布 ， 如 图 6. 1 所 示 。 

条 件 概率 分 布 Ph |h) 和 顶层 〈 一 个 受 限 玻 尔 兹 曼 机 ) 的 联合 概率 
I Phe", ho) 定义 了 深度 置信 网 络 这 样 一 个 生成 模型 。 接 下 来 ， 引入 0 
来 表达 模型 的 精确 的 或 近似 的 后 验 概率 ，0 会 在 推理 和 训练 中 使 用 。 除 了 项 
层 以 外 ， 其 他 层 的 后 验 概率 Q 都 是 近似 结果 。 由 于 (ht, ho!) 形成 一 个 受 
RERA BAL, WUE QC he ne!) 等 于 真实 的 P(ht |h!) , 这 里 精确 的 
推理 是 可 行 的 。 

当 使 用 算法 2 中 的 伪 代 码 所 描述 的 方法 逐 层 贪心 来 训练 深度 置信 网 络 时 ， 
一 层 都 需要 按照 受 限 玻 尔 效 曼 机 的 方法 初始 化 。 我 们 记 OC, hho!) 为 第 个 按 
照 如 此 方法 训练 的 受 限 政 尔 兹 曼 机 , P(…) 代表 基于 深度 
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图 6.1 深度 置信 和 网络 是 一 个 生成 模型 (从 P 分 布 中 生成 ， 对 应 图 中 实 线 ) 且 被 
用 于 提取 输入 数据 的 高 层 抽象 表示 (从 @ 分 布 中 提取 ， 对 应 图 中 虚线 ) 。 其 顶层 的 
受 限 玻 尔 效 曼 机 包含 尼 Ah? 两 层 (为 了 得 到 其 联合 分 布 ) 。 底 层 组 成 了 一 个 有 向 


















































图 模型 (sigmoid 置信 网 络 Wh'ax) ， 同 时 倒数 第 二 层 有 er 的 先 验 由 顶层 的 受 限 玻 














FSP, QCh hE EPC h 的 近似 ， 它 更 易于 计算 


算法 2 


TrainUnsupervisedDBN (P, c, £, W, b, c, mean _ field _ compu- 





tation) 
用 非 监督 的 逐 层 贪心 方法 训练 一 个 深度 置信 网 络 ， 其 每 一 层 用 受 限 玻 尔 效 曼 机 
的 训练 方法 进行 训练 (例如 采用 对 比 散 度 算法 ) 。 

P 是 网 络 的 输入 的 训练 数据 的 概率 分 布 。 

e 是 受 限 玻 尔 效 曼 机 的 学 习 率 。 

/是 训练 的 层 数 。 

Wr* 是 第 大 层 的 权重 矩阵 ， 其 中 必 可 取 1 到 / 间 的 数值 。 

bY 是 第 层 的 受 限 玻 尔 兹 曼 机 可 见 单 元 的 偏 置 向 量 ， 其 中 可 取 1 到 4 间 的 数值 。 

以 是 大 层 的 受 限 玻 尔 效 曼 机 隐 层 单元 的 偏 置 向 量 ， 其 中 上 可 取 1 到 4 间 的 
数值 。 
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mean field computation 是 一 个 布尔 值 ， 当 且 仅 当 其 上 各 层 的 训练 
数据 是 由 平均 场 方法 近似 得 到 而 非 随机 采样 得 到 时 ， 其 为 真 。 
for k =1 to do 
e 初始 化 Wi=0, b' =0, c' =0 
while 尚未 满足 终止 条 件 do 
。 从 P 中 采样 得 到 =x 
fori =1 to k-1 do 





if mean field computation then 
。 对 所 有 h PHERI, & Chi =1 he) hi 
else 
。 对 所 有 hi 中 的 元 素 j， 从 0( 居 | 大 -0 中 采样 得 到 万 
end if 
end for 
。 受 限 玻 尔 兹 曼 机 更 新 (ht-1，e， WE, b, ct) | 至 此 , 提供 了 后 续 使 用 
的 QC HE | Ak) | 





end while 


end for 


BARRER, BAEO" ht!) ( 它 是 可 因 式 分 解 的 ) 和 从 中 采样 都 很 
容易 实现 ， 而 P(h*|h*-1) (由 于 它 不 可 分 解 ) 却 很 难 实现 ， 所 以 我 们 用 QCh 
1-1) 来 近似 P(r-!)。 这 些 QCh" hi!) 同样 可 以 用 来 建立 对 输入 向 量 x 
的 表示 。 为 了 得 到 对 所 有 层 的 一 个 近似 后 验 或 表示 ， 我 们 进行 下 面 的 操作 。 首 
先 从 第 一 层 受 限 玻 尔 兹 曼 机 中 采样 得 到 hh! ~ 0(h! |x)， 或 者 通过 平均 场 方法 ， 
H h! = EU! |x]j] 而 不 是 从 有 1 中 采样 ,这样 得 到 的 期 望 值 是 基于 受 限 玻 尔 兹 曼 
机 的 概率 分 布 0( 肌 |x) 的 。 这 个 向 量 在 隐 层 单元 是 通常 的 二 项 式 形式 ( 即 
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h! =sigm(b! + Wiha) ) 时 ， 就 恰好 是 隐 层 单元 的 输出 概率 向 量 。 在 第 一 层 采取 
不 论 是 平均 场 得 到 的 向 量 如 还 是 采样 得 到 的 如， 都 作为 第 二 层 受 限 玻 尔 兹 曼 
机 的 输入 ， 然 后 计算 如 或 者 采样 得 到 采样 刀 ， 重 复 此 步骤 直到 最 后 一 层 。 一 
且 一 个 深度 置信 网 络 按照 算法 2 被 训练 ， 每 一 层 的 参数 W 〈 受 限 玻 尔 效 曼 机 
的 权重 ) 和 ci ( 受 限 玻 尔 兹 曼 机 的 隐 层 的 偏 置 ) 可 被 用 来 初始 化 一 个 深度 多 
层 神经 网 络 。 这 些 参数 可 以 在 之 后 用 其 他 的 准则 函数 (一般 为 一 个 监督 学 习 
的 准则 ) 来 进行 精 调 。 

一 个 基于 x 的 深度 置信 网 络 生成 模型 的 采样 可 按照 如 下 方法 得 到 

L 从 项 部 的 受 限 玻 尔 兹 曼 机 中 采样 出 一 个 可 见 的 向 量 ix-!:。 可 以 采取 如 章 
节 5.3.1 中 提 到 的 方法 ， 通 过 对 这 个 受 限 玻 尔 效 曼 机 用 吉 布 斯 链 的 方法 对 ht ~ 
PC 和 7 ~ PCW! 1) 进行 轮流 采样 来 近似 得 到 。 通 过 前 述 的 Q 后 
验 分 布 ， 从 一 个 训练 集合 的 样本 得 到 有-:! 的 表示 并 以 此 初始 化 吉 布 斯 链 可 以 使 
得 吉 布 斯 采样 的 步 数 变 得 更 少 。 

2. 对 上 取 从 Ll-1 到 1 的 值 ， 在 给 定 pt 的 情况 下 ， 基 于 隐藏 层 到 可 见 层 的 条 
件 概 率 分 布 PCE! |h*) 进 行 采样 ， 得 到 no! 

3. x = 有 0 即 为 深度 置信 和 网络 的 样本 。 


6.2 堆 合 自动 编码 费 训 练 


自动 编码 器 也 可 以 作为 初始 化 多 层 深 度 神 经 网 络 的 一 个 基本 模 
HD79 ,153,195] 。 它 的 训练 过 程 与 深度 置信 网 络 的 训练 过 程 很 类 似 : 

1. 将 第 一 层 训练 为 一 个 自动 编码 器 ， 去 最 小 化 原始 输入 的 重 构 误 差 。 这 是 
完全 无 监督 的 过 程 。 

2. 自动 编码 右 隐 层 单 元 的 输出 即 生 成 的 编码 )， 现 在 被 用 作为 外 一 层 的 输 
入 ， 而 这 一 层 也 被 继续 训练 成 一 个 自动 编码 器 。 同 样 ， 我 们 只 需要 没有 标注 的 
样本 。 
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3. 迭代 2 中 的 步骤 来 初始 化 所 需要 的 其 余 层 。 

4. 将 最 后 一 层 的 输出 作为 一 个 有 监督 层 的 输入 ， 这 个 有 监督 层 可 以 随机 初 
始 化 ， 也 可 以 在 固定 网 络 其 他 层 的 情况 下 ， 用 有 监督 训练 来 初始 化 。 

5. 利用 有 监督 的 准则 去 微调 这 个 深层 结构 的 所 有 参数 。 另 一 种 方案 是 ， 将 
所 有 自动 编码 器 展开 成 一 个 深层 的 自动 编码 器 并 且 微 调 深层 网 络 全 局 的 重 构 错 
误 ， 一 如 文献 [75] 中 一 样 。 

我 们 希望 在 逐 层 贪心 的 无 监督 预 训练 过 程 中 ， 将 所 有 层 的 参数 调整 到 一 个 用 
局 部 梯度 能 够 到 达 的 好 2 的 局 部 最 优 的 参数 空间 中 去 。 这 也 的 确 在 一 些 任务 上 有 
所 体现 [07,9,153,195]。 

这 个 准则 和 之 前 训练 深度 置信 和 网络 相 类 似 ， 只 是 用 了 自动 解码 器 而 不 是 
受 限 玻 尔 兹 曼 机 。 对 比 实验 结果 表明 ， 深 度 置 信和 网 络 比 堆 闭 自动 编码 器 要 
好 07,9,15] 。 这 可 能 是 因为 ，CD -更 接近 对 数 似 然 梯度 ， 而 不 是 重 构 误 差 
的 梯度 。 然 而 ， 由 于 重 构 误 差 的 梯度 比 起 CD -有 更 小 的 方差 (因为 不 涉 
及 采样 ) ， 将 两 个 准则 至 少 在 学 习 最 初 阶段 混合 使 用 会 很 有 意义 。 还 需 注 意 
的 是 ， 将 常规 自动 解码 器 用 降 噪 自动 编码 器 代替 ， 深 度 置 信 网 络 的 优势 将 会 
消失 ( 见 7.2 节 )。 

使 用 自动 编码 妖 而 非 受 限 玻 尔 兹 曼 机 来 构建 深层 结构 的 优势 在 于 ， 只 要 训练 
的 准则 在 参数 上 是 连续 的 ， 那 么 所 有 层 的 几乎 任何 参数 化 方法 都 是 可 能 的 。 另 一 
方面 ， 应 用 了 对 比 散 度 算 法 或 是 其 他 已 知 的 易 处 理 的 对 数 似 然 梯度 估计 方法 的 概 
率 模型 的 种 类 是 很 有 限 的 。 堆 生 自 动 编码 器 的 劣势 在 于 ， 它 们 不 对 应 于 一 个 生成 
模型 。 对 生成 模型 而 言 ， 如 受 限 玻 尔 兹 曼 机 或 是 深度 置信 网 络 ， 从 模型 中 抽取 样 
本 可 以 很 快 检验 它 学 习 到 了 什么 ， 例如， 通过 观察 图 片 或 单词 序列 可 以 知道 模型 
认为 哪些 图 片 和 单词 序列 是 合理 的 。 


























”至 少 在 泛 化 的 意义 上 很 好 。 
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6.3 半 监 督 与 部 分 监督 训 


练 





利用 深度 置信 和 网络 和 堆叠 自 动 编码 器 ， 可 以 获得 两 种 不 同 的 训练 信号 ， 也 可 
以 将 它们 组 合 运 用 。 这 两 种 训练 信号 分 别 是 : 局 部 的 逐 层 无 监督 训练 信号 (由 
逐 层 连接 的 RBM 或 者 自动 编码 器 获得 ) 和 一 个 全 局 的 有 监督 训练 信号 (由 与 深 
度 置 信 网 络 或 者 堆 秋 自动 编码 器 共享 同样 的 参数 的 深度 神经 网 络 获得 )。 在 前 面 
介绍 的 算法 中 ， 这 两 种 训练 信号 是 按 顺序 使 用 的 : 首先 是 无 监督 训练 阶段 ， 然 后 
是 有 监督 训练 进行 精 调 的 阶段 。 其 他 的 组 合 方法 也 是 可 以 的 。 

一 个 可 行 的 方法 是 在 训练 中 组 合 使 用 这 两 种 信号 ， 这 种 方式 在 文献 [17] 
中 被 称 为 部 分 监督 训练 (Partially Supervised Training), XH [17] 发 现 即 使 当 
真实 的 输入 信号 的 分 布 P(X) 与 监督 训练 目标 PCY |X) 没有 很 强 的 关联 时 ， 这 种 
部 分 监督 训练 仍然 很 有 用 。 为 了 确保 受 限 玻 尔 兹 曼 机 可 以 在 它 的 隐 层 表示 中 保留 
与 Y 相 关 的 信息 ， 在 对 比 散 度 算法 的 更 新 时 结合 了 分 类 对 数 概 率 梯度 ， 这 样 对 
于 有 些 分 布 可 以 获得 更 好 的 预测 效果 。 

特别 是 在 深度 结构 大 背景 下 ， 一 个 有 吸引 力 的 半 监 督学 习 的 推广 ， 是 “ 自 
FEA” OME) 。 在 这 种 学 习 方 法 里 ， 无 标签 的 样本 也 有 可 能 来 自 除了 有 标签 类 
别 之 外 的 其 他 类 别 。 这 比 标准 的 半 监 督 场景 更 符合 实际 情况 。 举 个 例子 ， 即 使 我 
们 只 对 一 些 特定 的 目标 类 别 感 兴趣 ， 我 们 也 更 容易 从 网 络 上 获得 任意 目标 的 无 标 
签 样 本 (在 挑选 那些 我 们 所 关注 的 类 别 时 会 花费 很 多 精力 ) 。 











7 
受 限 玻 尔 将 曼 机 和 自动 编码 器 的 变 体 


这 章 我 们 讨论 一 些 模型 的 变 体 。 这 些 变 体 是 由 基本 的 受 限 玻 尔 兹 曼 机 和 自动 
编码 器 扩展 和 改进 而 来 的 。 

我 们 已 经 提 到 ， 对 受 限 玻 尔 效 曼 机 中 可 视 单元 和 隐藏 单元 的 条 件 概 率 分 布 进 
行 推广 是 一 件 很 直接 的 事情 ， 比 如 说 可 以 将 其 推广 至 指数 函数 族 中 的 任意 一 个 函 
B00) 。 高 斯 单元 、 指 数 单元 和 截断 指数 单元 已 经 在 文献 [17, 51, 99, 201] 
中 被 提出 或 使 用 。 通 过 简单 地 对 hh, A, 求 和 (或 者 积分 ) 的 作用 域 进行 改变 ， 
本 章 中 的 公式 可 以 很 容易 的 应 用 到 相应 的 情况 中 。 对 角 线 上 的 二 次 项 (比如 高 
斯 分 布 或 者 截断 高 斯 分 布 的 情况 ) 也 可 以 在 不 影响 自由 能 的 因 式 分 解 特性 的 情 
况 下 加 入 能 量 函 数 。 















































7.1 上 自动 编码 闫 和 受 限 豆 尔 兹 曼 机 的 稀 芷 化 表示 





稀 琉 化 在 近期 成 为 一 个 引 人 关 注 的 概念 ， 不 仅 是 在 机 顺 学 习 领 域 ， 还 有 统计 
和 信号 处 理 领域 ， 特 别 是 在 压缩 感知 相关 的 一 些 工 作 中 受到 了 重视 3” 。 但 它 
最 早 是 在 计算 神经 科学 中 引入 的 ， 用 于 对 视觉 系统 进行 稀疏 编码 1 。 现 今 它 已 
经 成 为 深度 卷 积 网 络 的 一 个 关键 部 分 ， 这 种 深层 卷 积 网 络 的 构建 使 用 了 基于 稀 下 C 
分 布 式 表示 的 自动 编码 器 的 一 种 变 体 [2175005552.4531。 同 时 稀 琉 化 也 是 深度 置 
信 网 络 的 关键 部 分 [001 。 


7.1.1 为 什么 需要 稀 朴 化 表示 





从 信息 论 的 角度 来 看 ， 稀 琉 表 示 比 固定 长 度 表 示 更 加 有 效 ， 因 为 它 的 有 效 表 
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示 位 数 是 随 着 样本 的 变化 而 变化 的 。 根 据 统 计 学 习 理 论 02…7 , 我们 用 来 编码 整 
个 训练 集合 的 比特 数 应 该 小 于 整个 训练 集合 的 比特 数 ， 以 此 来 得 到 好 的 泛 化 能 
力 。 在 我 们 感 兴趣 的 领域 中 ， 压 缩 不 同 的 样本 时 需要 用 不 同 的 位 数 来 表示 。 

从 另外 一 方面 来 看 ， 降 维 算法 ， 不 管 是 线性 的 主 成 分 分 析 (PCA) 和 独立 成 
分 分 析 (ICA) ， 亦 或 非 线性 的 局 部 线性 能 入 算法 (LLE) 和 等 距 上 映射 算法 (Iso- 
map) ， 把 每 一 个 样本 映射 到 了 相同 的 低 维 空间 。 根 据 第 一 段 的 阐述 ， 把 每 个 
样本 映射 到 不 同 的 低 维 空间 会 更 加 有 将 。 为 了 简化 描述 ， 不 妨 假设 映射 后 样 
本 的 表示 是 取 值 仅 为 0 和 1 的 向 量 。 如 果 我 们 需要 把 每 个 样本 映射 到 固定 长 
度 的 表示 ， 一 个 好 的 方案 是 选择 拥有 足够 的 自由 度 ， 从 而 能 表示 绝 大 多 数 样 
本 ; 同时 在 大 多 数 样本 上 ， 人 允许 把 这 个 定 长 的 表示 压缩 到 更 短 的 变 长 表示 。 
现在 我 们 有 了 两 种 表示 方法 ， 固 定 长 度 表示 : 可 以 用 来 作为 预测 和 决策 的 输 
A; 更 加 短小 的 变 长 表示 : 可 以 根据 茶 种 规则 从 固定 长 度 表示 中 压缩 得 到 。 
比如 ， 如 果 固 定 长 度 表 示 的 向 量 的 每 一 维 都 有 高 概率 为 0 ARE), OB 
么 在 大 多 数 情况 下 会 很 容易 压缩 这 类 向 量 。 对 于 某 个 固定 稀 牙 程度 的 稀 玻 向 
量 ， 其 所 有 配置 的 数目 远 远 小 于 更 小 的 稀 下 程 度 〈 其 至 没有 ) 的 向 量 的 配 
EAH, Fr DA Pein it Fh BS A ED 

Fi SAE RC TOE, TE EAR BEY BR NS BR EY Js Be Nb EAE 
的 输入 ， 所 以 它们 应 该 容易 被 解释 。 一 个 高 度 压 缩 的 编码 往往 更 加 的 耦合 ， 所 
以 在 不 考虑 整个 编码 的 情况 下 ， 这 种 编码 中 的 某 一 些 比特 很 难 被 解释 。 相 反 ， 
我 们 可 以 期 望 固定 长 度 的 稀 玻 表示 ， 具 有 每 一 个 比特 或 者 一 些 比 特 的 集合 可 以 
被 解释 的 性 质 ， 也 就 是 能 够 反映 输入 的 一 些 有 意义 的 性 质 ， 或 抓 住 导致 数据 变 
化 的 因素 。 以 输入 的 语音 信号 为 例 ， 如 果 某 一 些 比特 编码 了 说 话 人 的 特征 ， 其 
余 一 些 比特 编码 了 音素 产生 时 的 通用 特征 ， 我 们 就 能 够 分 离开 数据 中 表示 不 同 
村 征 的 部 分 ， 同 时 对 于 特定 的 预测 工作 来 说 ， 数 据 的 部 分 特征 可 能 已 经 是 足 
够 的 。 

文献 [150] 基于 上 自动 编码 器 的 模型 提出 了 男 一 种 解释 稀 玖 化 正确 性 的 方 
式 。 它 解释 了 在 配 分 函数 没有 被 明确 的 最 小 化 或 者 只 是 被 近似 的 最 小 化 的 情况 
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下 ， 只 要 我 们 用 特定 的 约束 条 件 〈 如 稀 玻 化 ) 去 约束 学 习 算法 得 到 的 向 量 表示 ， 
我 们 也 有 可 能 获得 一 个 好 的 模型 。 假 定 由 自动 编码 融 学 到 的 表示 是 稀 玻 的 。 那 么 
因为 稀 玻 表示 的 配置 数目 必须 少 于 稠密 表示 的 配置 数目 ， 自 动 编码 顺 无 法 很 好 地 
重 构 每 一 个 可 能 的 输入 样式 。 为 了 在 训练 集 上 最 小 化 平均 重 构 误 差 ， 自 动 编码 器 
需要 找到 能 够 抓 住 数 据 分 布 的 统计 学 特性 。 

首先 ， 文献 [150] 将 自由 能 与 一 种 重 构 误差 建立 了 联系 ( 当 对 隐藏 单元 的 
求 和 用 求 最 大 值 代替 的 时 候 ， 这 种 联系 就 建立 起 来 了 ) 。 因 此 在 训练 集 上 最 小 化 
重 构 误差 等 价 于 最 小 化 自由 能 ， 也 就 是 最 大 化 能 量 模 型 似 然 度 的 分 子 (参见 式 
(5.7) )。 因 为 分 母 ( 配 分 函数 ) 就 是 分 子 在 所 有 可 能 的 输入 配置 上 的 加 和 ， 所 
以 最 大 化 似 然 就 等 同 于 在 所 有 可 能 输入 的 配置 中 使 得 大 多 数 配置 的 重 构 误差 尽量 
大 ， 而 在 训练 集 上 的 配置 的 重 构 误 差 尽 量 小 。 如 果 编 码 器 〈 它 把 一 个 输入 映射 
成 它 的 某 种 表示 ) 被 某 种 方式 约束 ， 使 得 它 不 能 很 好 地 表示 所 有 可 能 的 输入 样 
式 〈 即 平均 重 构 误 差 在 这 些 可 能 的 输入 配置 上 很 高 ) ， 就 可 以 实现 上 述 的 优化 需 
求 。 注 意 这 在 编码 长 度 比 输入 小 很 多 的 情况 下 已 经 可 以 做 到 。 另 一 个 方法 就 是 引 
APR ET DS! ， 它 可 以 被 合并 到 训练 准则 中 。 这 种 方法 下 ， 对 应 于 配 分 函 
数 的 对 数 的 梯度 项 就 可 以 完全 被 省 略 ， 而 被 对 隐藏 层 单元 编码 的 稀 琉 正则 项 所 代 
蔡 。 有 趣 的 是 ， 这 种 方法 可 以 潜在 地 改善 CD -下 受 限 玻 尔 效 曼 机 的 训练 。CD -k 
训练 采用 近似 方法 来 佑 计 配 分 函数 的 对 数 的 梯度 ， 如 果 我 们 对 隐藏 层 表 示 加 入 稀 
玻 惩 加 项 ， 我 们 就 可 能 补偿 这 种 近似 带 来 的 损失 。 补 偿 的 原理 就 是 尽 可 能 增 大 所 
有 可 能 的 输入 配置 的 自由 能 ， 而 不 仅 是 增 大 那些 输入 样本 附近 的 ， 由 对 比 散 度 算 
法 的 负 向 阶段 重 构 产 生 的 样本 的 自由 能 。 





























7.1.2 BRK ADA SRS 


A LARET VATE RUE RR A "PI ET SY PB, ERE 
SRP FA Le os BY BEE A AEF) EL FA | MERR A 
辑 回归 (Sparsifying Logistic) HJF ZC SCHL AY, SiT 2 h — Pp VE te AE A E a 
(Nearly Saturating Logistic) 得 到 的 。 其 中 ， 通 过 自 适 应 的 更 新 它 的 偏 置 项 ( bi- 
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as) 可 以 保证 编码 明显 非 0 的 平均 次 数 维持 在 很 低 的 水 平 。 一 年 后 ， 这 个 研究 小 
组 又 提出 一 种 更 简单 的 算法 变 体 : 在 编码 时 利用 student -t 先 验 分 布 的 方法 。 在 
WE, student - t 先 验 一 直 用 于 获取 编码 的 最 大 后 验 估 计 (MAP) ASABE, TK 
编码 用 于 在 计算 神经 科学 中 的 V1 视觉 皮层 模型 中 产生 输入 。 另 外 一 种 方法 也 与 
计算 神经 科学 相关 ， 该 方法 包含 两 层 稀 疏 化 受 限 玻 尔 效 曼 机 !0] 。 稀 玻 化 是 通过 
加 正则 项 的 方式 实现 的 ， 该 正则 项 惩罚 来 自 固定 低层 隐藏 单元 的 激活 值 期 望 的 偏 
差 。 而 文献 [139] 已 经 显示 图 像 稀 玻 编码 的 一 层 与 V1 层 所 见 非常 相似 。 文 献 
[110] 发 现 当 训 练 一 个 稀疏 化 的 深度 置信 网 络 〈 即 两 个 稀 玻 化 的 受 限 玻 尔 效 曼 
机 在 彼此 的 顶部 ) 的 时 候 ， 第 二 层 表 现 出 能 够 去 学 习 如 何 探测 视觉 特征 ， 一 如 
在 V2 视觉 皮层 区 域 ( 即 在 灵 长 类 动物 的 主要 处 理 流程 链 中 ，V1 视觉 皮层 之 后 
的 区 域 ) 中 观测 到 的 一 样 。 

在 压缩 感知 中 ， 稀 玻 化 是 在 编码 中 施加 六 惩罚 实现 的 ， 即 给 定 基 矩阵 W 
(W 的 每 一 列 是 一 个 基 ) 我 们 是 要 找到 这 样 的 编码 有， 使 得 输入 x 以 较 小 的 4 误 
差 被 重建 ， 同 时 有 ERG, BI 

min || x -Wh || +A lhl, (7.1) 























式 中 , hli = È (h; lo h 中 的 非 0 分 量 的 实际 数目 实质 上 应 该 由 4 范 数 给 定 
但 在 l 范 数 下 最 小 化 上 式 是 非常 困难 的 。 同 时 ,1 范 数 就 是 bp 范 数 的 一 个 特例 ， 
也 是 凸 的， 这 使 得 式 (7. 1) 的 整体 最 小 化 是 凸 优化 问题 。 正 如 文献 [30，47 ] 
中 所 提 到 的 ,4 范 数 是 0 范 数 的 很 好 的 替代 ， 自 然 也 导致 了 稀 琉 化 的 结果 。 同 
时 ， 在 某 些 条件 下 ， 它 甚至 可 以 准确 地 恢复 真正 的 稀 琉 编码 ( 如果 确实 有 一 个 
解 存在 的 话 ) 。 需 要 注意 的 是 ， 虽然 h 惩罚 项 对 应 拉 普 拉 斯 先 验 概率 ， 并 且 后 验 
在 0 处 并 没有 质点 ， 但 由 于 上 述 性 质 ， 后 验 的 众 数 (Mode) (ARMER 
(7.1) 时 会 得 到 ) 却 通常 为 0。 尽 管 最 小 化 式 (7.1) 是 凸 优化 问题 ， 但 对 编码 
和 解码 的 基 矩 阵 W 进行 联合 最 小 化 却 并 不 是 一 个 凸 优化 问题 。 尽 管 如 此 ， 诸 多 
论文 也 提出 了 不 同 的 算法 成 功 地 解决 编 解码 联合 优化 问题 145,53,96,121,139,148] 。 
与 有 向 图 模型 (例如 第 4.4 节 提 到 的 sigmoid BLAIS) RAL, BRAT 
表现 出 了 某 种 解释 消除 (Explaining Away) ME: 它 在 众多 隐藏 层 编码 中 仅 选择 
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一 个 配置 去 解释 输入 。 这 些 不 同 的 配置 相互 间 是 竞争 关系 ， 当 选择 一 个 时 ， 其 他 
配置 被 完全 关闭 。 这 有 好 处 也 有 坏处 。 好 处 是 ， 如 果 一 个 事件 比 其 他 概率 更 大 ， 
那么 它 就 是 我 们 所 想 强调 的 。 坏 处 就 是 ， 这 使 得 最 终 编 码 一 定 程度 上 不 稳定 ， 输 
Ax 的 一 个 微小 波动 ， 会 使 得 最 优化 的 编码 h 的 值 大 相 径 庭 。 当 把 h 作为 输入 去 
学 习 更 高 层 的 变换 或 分 类 器 时 ， 这 种 不 稳定 性 将 会 引起 麻烦 。 事 实 上 ， 如 果 相 似 
的 输入 却 在 稀 跑 编码 层 导 致 非常 不 同 的 输出 ， 这 会 使 得 模型 的 泛 化 更 加 困难 。 这 
也 是 一 些 研究 者 一 直 试 图 解决 的 缺点 。 尽 管 我 们 可 以 有 效 的 优化 式 (7.1), 
它 与 采用 常规 的 自动 编码 器 和 受 限 玻 尔 效 曼 机 来 计算 编码 相 比 ， 仍 然 要 慢 上 百 
倍 ， 这 导致 训练 和 识别 过 程 都 非常 的 慢 。 

另 一 个 与 稳定 性 相关 的 问题 是 ， 如 何 对 次 度 结构 中 的 高 层 基 和 矩阵 W 进 
行 联合 优化 。 从 精细 调整 编码 使 其 专注 在 信号 最 具有 区 分 度 的 方面 的 目标 上 
看 ， 这 个 特别 重要 。 正 如 第 9. 1. 2 节 所 提 到 的 ， 当 用 判别 性 准则 去 精 调 深度 
结构 的 所 有 层 时 ， 可 以 显著 改进 识别 错误 。 原 则 上 ， 可 以 通过 编码 的 优化 来 
计算 梯度 。 但 是 如 果 优 化 的 结果 不 稳定 ， 则 梯度 可 能 不 存在 或 者 在 计算 上 不 
可 靠 。 为 了 解决 稳定 性 问题 和 上 述 的 精 调 问题 ,文献 [6] 提出 用 更 柔和 的 
近似 代替 六 惩罚 ， 其 只 是 近似 地 产生 稀 玻 系数 ( 即 许多 非常 小 的 系数 ， 实 
际 上 没有 收敛 到 0)。 

需要 牢记 的 是 ， 稀 玖 自动 编码 器 和 稀 蚊 受 限 玻 尔 兹 曼 机 并 不 具有 以 下 儿 个 
稀 焉 编码 的 问题 : 编码 在 推断 过 程 中 的 计算 复杂 性 、 编 码 的 稳定 性 以 及 深度 结 
构 中 全 局 精 调 时 第 一 层 梯度 计算 的 开销 。 稀 玻 编 码 系统 只 将 解码 器 进行 了 参数 
化 ， 而 编码 器 则 被 隐 式 地 定义 为 优化 问题 的 解 。 然 而 ， 篆 规 自 动 编码 器 或 者 一 
个 受 限 玻 尔 兹 曼 机 都 有 一 个 编码 部 分 ( 即 计算 Ph |x) ) 和 一 个 解码 部 分 
( 即 计 算 P(x 天 ) ) 。 在 一 系列 关于 稀 玻 自 编码 器 的 文献 [1530，151，152， 
153] 中 ,提出 了 介 于 普通 自动 编码 器 和 稀 玲 编码 器 之 间 的 中 间 结 构 ， 应 用 于 
模式 识别 和 机 融 视 觉 任务 。 文 献 中 提出 ， 让 编码 h KEAR (ANCE Beit St t 
算法 中 ) ， 但 仍然 包含 一 个 参数 化 的 编码 器 ( 如 在 普通 自动 编码 器 和 受 限 玻 尔 
效 曼 机 中 ) 以 及 一 个 惩罚 项 。 这 里 惩罚 项 惩罚 的 是 自由 的 非 参数 化 的 编码 灵 
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和 参数 化 编码 器 的 输出 之 间 的 差异 。 通 过 这 种 方式 ， 最 优 的 编码 严 要 满足 两 个 
目标 : 一 是 重 构 好 输入 〈 如 同 在 稀 玻 编码 中 的 做 法 ) ， 二 是 与 编码 器 的 输出 的 
差异 较 小 〈 由 于 编码 器 的 参数 化 的 结构 很 简单 ， 输 出 应 该 是 稳定 的 ) 。 在 实验 
中 ， 编 码 需 就 是 仿 射 变换 之 后 做 一 个 像 sigmoid 那样 的 非 线性 转换 ， 解 码 器 则 
和 黎 玻 编码 一 样 是 线性 的 。 实 验 指出 ， 所 得 到 的 编码 在 深层 结构 的 中 表现 得 很 
好 (利用 有 监督 方法 做 精 调 ) 0) ， 同 时 比 稀 蕊 编码 [2 更 加 稳定 (例如 ， 对 
于 输入 图 像 的 轻微 扰动 更 稳定 )。 


7.2 EEE 


降 噪 自动 编码 器 "95 是 一 种 随机 版 本 的 自动 编码 器 ， 其 输入 在 原 输 入 的 基础 
上 进行 一 些 随机 污染 (添加 噪声 ) ， 但 是 仍 使 用 未 经 改变 的 原始 输入 作为 重 构 的 
目标 。 直 观 上 ， 降 噪 自动 编码 器 在 完成 两 件 事情 : 对 输入 进行 编码 (保留 输入 
的 信息 ) 和 恢复 输入 中 被 随机 污染 的 部 分 。 只 有 当 抓 住 输入 中 的 统计 依赖 ， 我 
们 才 有 可 能 完成 第 二 件 事 情 。 实 际 上 ， 在 文章 [195] 中 ， 随 机 污染 会 将 输入 中 
的 某 些 值 设置 为 0 (达到 一 半 的 数值 ) 。 因 此 ， 对 随机 选择 的 缺失 模式 的 子 集 ， 
降 噪 自动 编码 器 尝试 使 用 那些 未 缺失 的 值 来 预测 那些 缺失 的 值 。 降 噪 自动 编码 器 
的 训练 准则 表现 为 如 下 重 构 的 对 数 似 然 度 : 
-logP (x |c(x) ) (7.2) 





这 里 x 是 未 污染 的 输入 ,x 是 随机 污染 后 的 输入 ，c(z) 是 对 zx 的 编码 。 因 此 
解码 器 的 输出 可 视 为 上 述 分 布 〈 未 污染 的 输入 上 的 分 布 ) 的 参数 。 文 献 【195 ] 
的 实验 中 ， 这 个 分 布 是 可 分 解 而 且 是 二 值 的 (每 个 像素 一 个 比特 ) ， 输 入 像素 点 
的 强度 可 解释 为 概率 。 值 得 注意 的 是 ， 降 品 自 动 编码 器 的 循环 版 本 早 在 文献 
[174] 中 就 被 提出 ， 其 中 使 用 一 种 堵塞 的 形式 来 污染 数据 (将 图 片 中 某 一 矩形 
区 域 设 置 为 0) 。 实 际 上 ， 使 用 自动 编码 器 来 降 噪 的 方法 在 更 早 之 前 就 已 经 被 提 
出 09,5] 。 在 文献 [195] 中 主要 的 创新 点 在 于 ， 其 展示 了 这 种 策略 如 何 成 功 应 











70 ) 人 工 智 能 中 的 深度 结构 学 习 


用 于 深度 结构 的 无 监督 预 训练 中 可 以 取得 很 好 的 效果 ， 而 且 它 将 降 品 自动 编码 器 
与 生成 模型 联系 起 来 。 

考虑 一 个 随机 的 4 ERX, SEAE k PRIRA, Xs = (Xs, Xe, 
oe Xy ) 是 使 用 S 挑选 出 来 的 子 集 ， 而 县 .表示 所 有 不 在 $ 中 的 元 素 。 我 们 已 
经 知道 ， 在 某 些 不 同 的 $ 选择 的 情况 下 ， 条 件 分 布 P(Xs |X_s) 可 以 很 好 地 描述 
联合 分 布 P(X) 的 特征 ， 这 种 特性 已 经 被 使 用 起 来 ， 例 如 在 吉 布 斯 采样 中 就 有 使 
用 。 值 得 注意 的 是 ， 当 |S| =1 而 且 输 入 中 的 某 些 维度 对 完全 相关 时 ， 一 些 不 好 
的 事情 就 会 发 生 ， 即 使 输入 的 联合 分 布 没有 被 真 正 抓 住 ， 我 们 依旧 能 做 出 很 好 的 
预测 。 这 对 应 一 条 没有 混合 的 吉 布 斯 链 ( 换 句 话说 ,没有 收敛 ) 。 通 过 采用 随机 
大 小 的 子 集 S 以 及 坚持 重 构 出 完整 的 原始 输入 ， 降 噪 自动 编码 器 中 可 能 避免 这 些 
问题 。 

有 趣 的 是 ， 在 8 种 计算 机 视觉 任务 的 一 系列 实验 比较 中 ， 如 果 铸 加 降 品 自动 
编码 器 来 搭建 深度 结构 ， 并 使 用 有 监督 准则 进行 精 调 ， 其 泛 化 性 能 要 明显 优 于 每 
加 常规 自动 编码 器 所 搭建 的 深度 结构 ， 并 且 其 性 能 可 以 与 深度 置信 网 络 相当 甚至 
EDS, 

降 噪 自动 编码 器 的 一 个 有 趣 的 特性 是 其 相当 于 一 个 生成 模型 。 它 的 训练 准则 
是 生成 模型 对 数 似 然 度 的 一 种 边界 情况 。 在 文献 [195] 中 讨论 了 多 种 生成 模 
型 。 一 个 简单 的 生成 模型 是 半 参数 的 ， 取样 一 个 训练 样本 ， 随 机 污染 它 ， 使 用 纺 
码 函 数 来 获得 该 样本 的 隐藏 表示 ， 再 使 用 解码 函数 对 隐藏 表示 进行 解码 ( 即 获 
得 输入 概率 分 布 的 参数 ) ， 接 着 由 此 来 取样 一 个 样本 。 这 种 方法 需要 一 直 保留 训 
练 集 (就 像 非 参 数 化 密度 模型 一 样 ) ， 很 多 情况 下 难以 满足 。 文 献 [195] 中 也 
探究 了 其 他 可 能 的 生成 模型 。 

降 噪 自动 编码 器 的 另 一 个 有 趣 的 特性 是 ， 它 很 自然 地 适用 于 存在 缺损 的 数值 
或 者 多 模 态 数据 (对 于 任何 特定 样本 ， 总 有 一 个 多 模 态 子 集 是 可 以 获得 的 ) 。 这 
是 由 于 降 噪 自动 编码 器 在 训练 的 过 程 中 使 用 的 就 是 存在 缺损 的 数据 (这 些 缺 损 
总 是 随机 的 隐藏 了 输入 中 的 某 些 值 ) 。 
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7.3 JAW 


通过 在 可 见 层 节点 之 间 添 加 相互 作用 项 或 者 层 内 连接 ， 可 以 减少 受 限 玻 尔 效 
曼 机 受 限制 的 程度 。 从 P(h|x) 中 取样 h 是 很 简单 的 , 但 从 P(x |h) 中 取样 x 通 
常 来 说 难度 很 大 ， 等 同 于 从 马尔 可 夫 随 机 场 (一 种 完全 可 观测 的 玻 尔 兹 曼 机 ) 
中 取样 ， 其 中 偏 移 值 取 决 于 的 值 。 文献 [141] 中 提出 了 一 种 可 以 抓 住 图 片 中 
统计 规律 的 模型 ， 其 结果 显示 ， 基 于 该 模型 的 深度 置信 和 网络 相 比 基于 原始 受 限 玻 
尔 兹 曼 机 的 深度 置信 网络 而 言 ， 可 以 生产 更 加 真实 的 图 像 块 。 实 验 结果 也 表明 ， 
其 生成 的 图 像 块 与 真实 图 像 块 在 像素 强度 上 具有 相似 的 边缘 统计 和 成 对 统计 
特性 。 

使 用 隐藏 层 单元 ， 层 内 连接 能 够 更 容易 地 抓 住 数据 中 两 两 特征 之 间 的 依赖 关 
系 ， 从 而 将 那些 高 阶 依 赖 关 系 留 给 隐藏 层 节 点 来 学 习 。 受 限 玻 尔 兹 曼 机 的 第 一 层 
层 内 连接 结构 可 以 视 作 一 种 对 数据 的 白化 操作 ， 而 白化 操作 已 经 被 人 们 发 现 是 图 
像 处 理 系统 中 十 分 有 用 的 预 处 理 步 又 0??1 。 文 献 [141] 中 提出 在 深度 置信 网络 
的 所 有 层级 中 都 使 用 层 内 连接 (可 以 视 作 一 个 有 层级 结构 的 马尔 可 夫 随 机 场 ) 。 
这 种 结构 的 精妙 之 处 在 于 ， 隐 藏 层 节点 只 需要 关注 于 高 级 的 抽象 特征 ， 那 些 局 部 
细节 则 交 给 层 内 连接 去 处 理 。 举 例 来 说 ， 当 生成 一 张 脸 的 图 片 时 ， 嘴 和 上 鼻子 的 大 
概 位 置 由 那些 高 级 特征 所 确定 ， 而 它们 的 精确 位 置 的 选 定 则 要 满足 编码 在 低层 的 
层 内 连接 中 的 成 对 的 参数 关系 。 使 用 这 种 方法 生成 的 图 片 通常 具有 更 加 尖锐 的 边 
界 ， 图 像 中 各 部 分 的 相对 位 置 也 更 加 准确 ， 而 且 无 需 大 量 的 高 层 节 点 。 

为 了 从 P(x1h) 中 进行 取样 ,我 们 可 以 从 当前 样本 启动 一 个 马尔 可 夫 链 (在 
层 内 连接 模型 中 ,像素 之 间 已 经 具有 了 相互 依赖 关系 ， 所 以 收敛 的 速度 应 该 比较 
快 )， 而 且 只 在 x 的 基础 上 运行 一 段 较 短 的 路 径 (保持 及 不 变 )。 记 串 为 可 见 层 
到 可 见 层 的 连接 矩阵 ， 如 玻 尔 兹 曼 机 的 能 量 函 数 中 的 式 (5. 15) 那样 。 为 了 降低 
模型 中 对 比 散 度 算法 的 采样 方差 ,文献 [141] 中 使 用 五 个 衰减 平均 场 的 步骤 来 
代替 常规 吉 布 斯 链 : 
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x, =ax,_, + (1-a)sigm(b +Ux,_,+Wh), ae(0, 1) 


7.4 条 件 RBM 和 时 序 RBM 


条 件 RBM 是 一 种 受 限 玻 尔 兹 曼 机 。 它 的 参数 不 是 自由 参数 ， 而 是 条 件 随机 
变量 的 参数 化 函数 。 举 个 例子 ， 考 虑 一 个 受 限 玻 尔 效 曼 机 ， 它 的 观测 向 量 x 和 隐 
nit h 的 联合 概率 分 布 为 P(x, h), GER (b, c, W) 的 关系 如 式 (5.15), 
Hh b 表示 输入 偏 置 ，c 表示 隐藏 变量 的 偏 置 ， 琴 表示 权重 矩阵 。 这 种 上 下 文 依 
赖 的 受 限 玻 尔 效 曼 机 在 文献 [182, 183] 中 有 介绍 ， 它 的 隐 变 量 偏 置 c 是 一 个 
关于 上 下 文 变量 z 的 仿 射 函数 。 因 此 这 样 的 受 限 玻 尔 效 曼 机 表达 为 P(x, h|z) X 
考 对 有 做 边缘 化 得 到 P(x jz) 。 一 般 来 说 ， 受 限 玻 尔 效 曼 机 的 参数 0 = (b, c, W) 
可 以 写成 参数 化 的 方程 96=f(z; w) ， 即 条 件 RBM 在 条 件 z 下 的 实际 的 自由 参数 
记 为 w。 将 受 限 玻 尔 效 曼 机 推广 到 条 件 RBM 时 也 可 以 构造 深度 结构 ， 其 中 每 一 
层 的 隐藏 变量 都 以 其 他 的 变量 (通常 表达 某 种 形式 的 上 下 文 ) 的 值 为 条 件 。 

受 限 玻 尔 效 曼 机 中 的 对 比 散 度 算法 也 可 以 很 容易 的 推广 到 这 类 条 件 RBM 中 。 
参数 9 的 梯度 估计 子 A0 可 以 通过 简单 的 反 向 传播 直接 推出 o 的 梯度 估计 子 : 














00 


在 文献 [183] 研究 的 仿 射 变换 ec =B+Mz (其 中 c, B 和 z 是 列 向 量 ，M EE 
Me) 的 情况 下 ， 条 件 参 数 的 对 比 散 度 更 新 可 以 简化 如 下 
AB=Ac 





AM = Acz' (7.4) 

其 中 最 后 一 个 乘法 是 外 积 (可 以 应 用 链 式 法 则 ) ，Ac 是 由 CD -% 算 法 给 出 的 在 
隐藏 单元 偏 置 上 的 更 新 。 

这 样 的 想法 已 经 成 功 地 应 用 到 了 对 人 类 运动 的 序列 数据 的 条 件 概 率 分 布 

P(x,|%,-1, %)-2.%,-3) P ER, Hx, 是 一 个 向 量 ， 它 结合 了 运动 关节 的 角 

度 和 其 他 几何 特征 ， 这 些 特 征 是 由 从 诸如 走 和 跑 这 样 的 运动 数据 中 计算 得 到 的 。 
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有 趣 的 是 ， 给 定 前 有 帧 的 采样 数据 ， 然 后 通过 如 下 的 近似 方法 连续 采样 第 i; 帧 的 
数据 ， 可 以 生成 真实 的 人 类 运动 序列 

Playtest) = Pom ta os) I PC aas aas te 

(7.5) 
初始 帧 可 以 用 特殊 的 空 值 作为 上 下 文 或 者 用 单独 的 模型 P(x , xs， e, Xp) 
生成 。 

如 文献 [126] Bras, 不仅 偏 置 可 以 依赖 于 上 下 文 ， 让 权重 也 依赖 于 上 下 文 
变量 条 件 也 是 有 用 处 的 。 在 这 种 情况 下 ， 通 过 一 个 表示 相互 作用 的 参数 7, ， 引 
入 了 对 输入 单元 x;， 隐 藏 单元 hh, 和 上 下 文 单元 z 之 间 的 三 向 交互 建 模 的 能 
这 使 得 我 们 可 以 大 大 地 增加 了 自由 度 的 数目 。 这 种 方法 已 经 被 应 用 于 建 模 学 习 捕 
获 流 场 (Flow Fields), x Al z 分别 表示 视频 中 的 当前 图 像 和 之 前 的 图 像 ('251。 

通过 捕获 序列 中 不 同时 间 i 的 隐藏 状态 〈 称 为 状态 ) 之 间 的 时 间 依 赖 性 ， 可 
以 对 序列 数据 的 隐 变 量 h, 进行 建 模 ， 这 种 统计 模型 可 以 获得 更 充分 的 建 模 能 力 。 
这 也 是 隐 马 尔 可 夫 模 型 (HMMs) 411 可 以 捕获 长 观测 序列 oe, ，z ，… 之 间 的 依 
赖 关 系 的 原因 ， 尽 管 这 个 模型 只 把 隐藏 状态 序列 hi ，h,，… 考 虑 为 阶 数 为 1 的 
马尔 可 夫 链 (只 有 hh, 和 有 ,1 之 间 有 直接 依赖 关系 )。 而 在 HMMs 中 ， 隐 藏 状态 
的 表达 h, 是 局 部 的 (hh, 的 所 有 取 值 是 可 数 的 ， 并 且 每 个 值 之 间 由 一 些 特定 的 参 
数 联 系 ) ， 因 此 时 序 RBM (Temporal RBMs) 在 文献 [180] 中 被 提出 ， 它 可 以 
构造 状态 的 一 种 分 布 表 达 。 这 种 想法 是 前 面 提 到 的 条 件 RBM 的 一 个 扩展 ， 区 别 
在 于 : 上 下 文 不 仅 包括 过 去 的 输入 ， 也 包括 了 过 去 的 状态 ， 例 如 ， 我 们 建立 一 个 
如 下 的 模型 

















P(h,, x, (h,i, X1, as Xp) (7.6) 
其 中 上 下 文 是 z =(h1, X1 7s hip, xX,_4)， 如 图 7.1 所 示 。 虽然 由 时 序 
RBM 生成 的 序列 的 采样 方法 可 以 和 条 件 RBM 一 样 (在 每 一 步 ， 都 用 同样 的 蒙特 
卡 罗 马 尔 可 夫 链 近似 从 受 限 玻 尔 兹 曼 机 中 采样 )， 但 是 ， 在 给 定 一 个 输入 序列 时 
采用 这 样 的 方式 准确 推断 隐藏 状态 序列 不 是 那么 容易 。 取 而 代 之 的 是 ,文献 
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图 7.1 时 序 RBM 对 序列 数据 建 模 的 例子 ， 包 含 了 隐藏 状态 之 间 的 相关 性 。 双 向 的 
箭头 表示 的 是 无 向 的 连接 ， 即 受 限 玻 尔 兹 曼 机 。 单 向 箭头 的 虚线 边 表示 了 条 件 依赖 关 
Ro (x,, h,) 受 限 玻 尔 兹 曼 机 的 条 件 是 过 去 的 输入 及 过 去 的 隐藏 状态 向 量 的 值 











[180] 中 提出 使 用 平均 场 滤波 估计 作为 隐藏 序列 的 后 验 概率 的 近似 。 





7.5 分 解 式 RBM 








在 若干 概率 语言 模型 中 ， 都 已 经 提出 了 学 习 每 个 词 的 分 布 式 表示 的 一 些 方 
(15 16,37 43 128,130 169,170,171 207] 。 在 利用 受 限 玻 尔 效 曼 机 对 词 序列 建 模 时 ， 如 果 
可 以 用 一 种 参数 化 的 方法 自动 地 学 习 每 个 词 在 词 表 中 的 分 布 ， 这 样 将 会 很 方便 。 
这 就 是 文献 [129] 提出 的 方法 。 对 于 一 个 词 序列 进行 建 模 的 受 限 玻 尔 效 曼 机 ， 
ee iy Voie) ee eee 
E, Mo 是 仅 在 词 表 中 v, 的 位 置 处 为 1， 其 余 位 置 全 为 0 的 向 量 , x = (0',, vh, 
.ai) o 文献 [129] 使 用 一 种 分 解 的 方法 将 受 限 玻 尔 兹 曼 机 的 权重 矩阵 W 分 
解 成 两 个 因子 ， 其 中 一 个 与 输入 子 序列 中 的 位 置 + 有关， 另 一 个 与 之 无 关 。 考 虑 
给 定 输入 子 序列 (o, 由，…， o) 时 ， 对 隐藏 层 单元 概率 的 计算 。 我 们 并 不 直 
接 用 矩阵 W 去 乘 x*， 而 是 进行 如 下 的 步骤 : 首先， 通过 一 个 矩阵 丸 将 每 一 个 词 
w, 映射 为 一 个 4 HEATER, =Ro ， 其 中 ze |1, 2,…, | ; 然后 将 由 向 量 拼 
FEA CR’ wo Roos oo Ry) REWE B。 因 此 W = BDiag (R), 其 中 
Diag( R) 是 一 个 对 角 线 为 R MARAE, BOMB APEX RUR BESE AT 


n 元 组 语言 模型 (3”,130] 。 当 它 的 预测 和 当前 最 好 性 能 的 元 组 语言 模型 的 预测 进 
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行 平均 后 ， 其 性 能 可 以 进一步 提升 029] 。 
7.6 受 限 玻 尔 兹 曼 机 和 对 比 散 度 的 推广 


让 我 们 来 尝试 让 受 限 玻 尔 兹 曼 机 的 定义 更 一 般 化 ， 以 便 包含 一 个 大 类 的 参数 
化 模型 。 之 前 讨论 过 的 思想 和 学 习 算法 (譬如 对 比 散 度 ) 能 直接 应 用 在 这 些 模 
型 中 。 按 照 如 下 步骤 将 受 限 玻 尔 效 曼 机 一 般 化 : 一 个 广义 的 受 限 玻 尔 效 曼 机 是 一 
个 基于 能 量 函 数 的 概率 模型 。 这 里 输入 层 是 向 量 x， 隐 藏 层 为 向 量 疡 ， 其 能 量 函 
数 的 定义 使 得 P(h|x) 和 P(x|h) 都 可 以 进行 因 式 分 解 。 这 个 定义 可 以 采用 能 量 
函数 参数 化 的 形式 ,文献 [73] 也 提出 了 这 样 的 定义 : 

命题 7.1 如 果 模 型 的 能 量 函 数 形式 类 似 式 (5.5), 使 得 P(h|x) = 
TP (hr, x) AS P(x |) = 了 IP(xj|h)， 则 该 能 量 函 数 必定 有 如 下 形式 








Energy(x, h) = Di p(x) + È EC) + Èn jh x) (7.7) 
J l tJ 


这 





是 一 个 对 Hammersley - Clifford 定理 3 的 直接 应 用 , 文献 [73] 也 显示 
上 面 的 函数 形式 是 得 到 互补 先 验 (Complementary Priors) 的 充分 必要 条 件 。 通 过 
选择 合适 的 P(h) ， 互 补 先 验 允 许 后 验 概率 分 布 P(h|x) 进 行 因 式 分 解 。 

在 输入 层 和 隐藏 层 均 为 二 值 的 情况 下 ， 这 个 新 的 形式 化 没有 真正 地 带 来 任何 
额外 的 表达 能 力 。 实 际 上 ,依据 2 x2 AGH (hi, x) 总 可 以 被 重 写 为 一 个 关 
于 (h;, x) WKE: a + bxj +ch; + dhx;， 所 以 n; Chi, x) 可 以 取 最 多 
四 个 不 同 的 值 。5 和 < 则 可 被 归 入 偏 置 项 ， 而 a 则 是 一 个 全 局 常数 ， 对 模型 没有 
影响 ( 它 会 在 配 分 函数 中 被 消去 ) 。 

从 男 一 个 方面 看 ， 当 x R h 是 实数 向 量 时 ， 我们 可 能 会 想 使 用 更 高 容量 的 模 
型 来 刻画 (h;, x) 的 交互 。 这 个 模型 可 能 是 非 参数 模型 。 比 如 ， 逐 渐 添 加 N, 
的 参数 项 以 便 更 好 地 模拟 互相 依赖 过 程 。 而 且 即 使 n, ;是 很 复杂 的 方程 形式 ， 从 
条 件 概 率 密度 P(x |h) 和 P(h;|x) 中 采样 都 是 可 行 的 。 这 是 因为 它们 都 是 一 维 的 
概率 密度 ， 对 其 进行 近似 采样 和 数值 积分 运算 都 很 容易 。 (例如 对 互相 交 释 的 区 
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间或 柱状 区 间 (Bins) 上 的 密度 进行 累加 运算 。) 

这 种 分 析 也 强调 了 受 限 玻 尔 兹 曼 机 的 基本 限制 。 就 是 它 的 参数 化 仅 考虑 相 邻 
层 变 量 间 两 两 的 相互 作用 。 由 于 户 是 隐藏 变量 而 且 我 们 又 可 以 选择 隐藏 变量 的 数 
目 ， 我们 仍 有 足够 的 表达 能 力 来 描述 所 有 可 能 的 x 的 边缘 概率 〈 实 际 上 ， 我 们 
可 以 表达 任何 离散 概率 分 布 021 ) 。 另 一 些 受 限 玻 尔 效 曼 机 的 变 体 (如 7.4 节 中 
所 介绍 ) 模型 允许 三 元 交互 1029] 。 

在 广义 受 限 玻 尔 效 曼 机 公式 中 什么 是 对 比 散 度 算 法 更 新 呢 ? 为 了 简化 符号 ， 
我 们 在 式 (7.7) PEREA p,’ s ME’ s TARIA n, s， 所 以 在 接 下 来 的 公式 
中 我 们 可 以 省 略 它们 。 定 理 5.1 可 以 使 用 下 面 的 公式 








FreeEnergy(x) =- log >, exp ( 一 > ni ;Ch;, x;) ) 
h i;i 


因此 ,样本 x 的 自由 能 梯度 如 下 


exp (- E m Ch, x;) ) 
dFreeEnergy(x) _ í 之 a : ðn; ;(h;, x;) 
ap h > exp (- > Ti Ales x;) ij oR 
h ij 


E > P(h i) py ðn; (h, x;) 
h i 00 
(h;, x;) 


LA x — «| 
根据 命题 7. 1 ， 吉 布 斯 链 我 们 仍 能 使 用 。 在 吉 布 斯 链 的 第 上 步 之 后 可 以 截断 对 数 
似 然 梯 度 展开 式 ( 见 式 〈5.28) ) ， 用 来 自 这 条 吉 布 斯 链 的 样本 来 近似 期 望 。 通 
过 这 些 ， 我 们 获得 在 训练 点 x, 附近 的 对 数 似 然 梯度 的 近似 ， 而 这 里 的 近似 值 仅 
依赖 于 吉 布 斯 样本 hi, Ie, xpa: 


ðlogP (x; ) T dFreeEnergy(x,) 0FreeEnergy(x;,,,) 
a 0 ü 0 i 






























































2 (- > an; Chi is Xi ;) x > Omi Miss, i> Sa 
全 00 ~= 00 


XPM FT SERB 2K LAY CD -k SK, AO 是 模型 参数 9 的 更 新 规则 。 在 多 
数 的 参数 化 类 型 中 ， 我 们 总 可 以 让 @ 的 特定 项 以 非 显 性 加 和 的 方式 依赖 于 n, jo 
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例如 ，( 直接 取 基 于 hh, ;的 期 望 而 不 是 进行 采样 ) 我 们 在 如 下 情况 可 以 恢复 到 算 
法 1 
bx. c,h; 
ni, ;(h;, x;) = -W,h,x, -~~+-—— 


TOH n, ny : 





IIF, n, Mn, 分 别 是 隐藏 单元 和 可 见 单元 的 数目 。 我 们 也 可 以 根据 不 同 的 能 量 
函数 形式 以 及 隐藏 和 输入 单元 允许 的 值 域 重新 得 到 其 他 模型 的 变 体 -20,”1 。 


8 
DBN 各 层 联合 优化 中 的 随机 变 分 边界 


在 本 节 中 ， 我 们 将 讨论 训练 深度 置信 网络 (DBN) 的 数学 基础 。 一 个 DBN 
的 对 数 似 然 度 可 以 使 用 Jensen 不 等 式 来 确定 其 下 界 ， 正 如 我 们 下 面 要 讨论 的 ， 
这 个 结论 可 以 证 明 在 文献 [73] 中 提出 的 并 在 章节 6. 1 中 描述 的 逐 层 贪心 训练 策 
We, ESL (6.1) 作为 DBN 的 联合 分 布 ， 为 了 简化 记号 ,我 们 记 h (第 一 层 
隐藏 向 量 ) 为 hn， 并 引入 任意 条 件 分 布 0(hlx)。 首 先 将 log P(x) 乘 以 1 = 





> (hlx)， 再 利用 P(x) =P(x,h)/P(hlx)， 然后 乘 上 1=Q(hlx)/Q(hlx)， 
h 
并 展开 这 些 项 . 
P(x,h) 
log P = hix))log P h\x)lo 
g P(x) = (È QCh Ix) log Px) = È OCh Ix) log pep ey 


_ P(x,h) Q(hIx) 
= È OCh lx)log Brix) OChIx) 








= Hom + È QCh lx)log P(x,h) + Y, QCh 1x) log an 


= KL(Q(h Ix) || P(A Ix)) + Hon) + 


2, QCh |x) (log PCA) + log P(x Ih) ) (8.1) 





RP, Hoo E QO CAIx) AUK, KL 散 度 的 非 负 性 可 得 到 如 下 不 等 式 

log P(x) = Hocnx) + 之 Q(h lx) (log P(h) + log P(xIh)) (8.2) 
4 PAO 相同 时 等 号 成 立 ， 例 如 单 层 的 情况 〈 即 受 限 玻 尔 效 曼 机 ) . TEN P K 
表示 在 DBN 下 的 概率 ,用 0 来 表示 在 一 个 受 限 玻 尔 兹 曼 机 下 (第 一 层 受 限 玻 尔 


和 


效 曼 机 ) 的 概率 ， 并 在 公式 里 选择 Q (hx) 作为 第 一 层 受 限 玻 尔 效 曼 机 中 给 定 可 
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视 变 量 条 件 下 的 隐藏 变量 的 条 件 分 布 。 我 们 定义 第 一 层 RBM， 使 得 (xih) = 
P(x1h)。 一 般 来 说 P(hlx) 关 0Q(hlx)， 这 是 因为 虽然 第 一 层 隐藏 层 向 量 h =h 
的 边缘 分 布 P(h) 由 DBN 里 上 面 的 层 决 定 , 但 是 受 限 玻 尔 兹 曼 机 里 的 边缘 分 布 
Q(h) 却 只 取决 于 受 限 玻 尔 兹 曼 机 的 参数 。 





8.1 将 RBM 展开 为 无 限 有 问 置信 网 络 





在 使 用 上 述 似 然 度 分 解 来 证 明 深度 置信 和 网络 (DBN) 的 贪心 训练 过 程 之 前 ， 
我 们 需要 建立 DBN 中 的 P Ch! ) 和 第 一 层 受 限 玻 尔 效 曼 机 中 对 应 的 边缘 分 布 
Q( 有 如 ) 之 间 的 关系 。 一 个 有 趣 的 发 现 是 ， 存 在 一 个 DBN， 其 边缘 分 布 h 等 于 第 
一 层 受 限 玻 尔 兹 曼 机 的 让 的 边缘 分 布 ， 即 PC!) =Q), RE P 的 维度 等 于 
h =x 的 维度 。 为 了 看 到 这 一 点 ， 考 虑 一 个 两 层 RBM， 其 第 二 层 权 重 和 矩阵 是 第 
一 层 的 转 置 (这 是 我 们 需要 维度 一 致 的 原因 ) 。 因 此 ， 通 过 RBM 联合 分 布 中 可 
视 层 和 隐藏 层 变量 的 对 称 性 ( 转 置 权重 和 矩阵 时 )， 第 二 层 RBM 可 视 向 量 的 边缘 
分 布 等 于 第 一 层 中 隐藏 向 量 的 边缘 分 布 0(h' )。 

发 现 这 一 点 的 男 一 个 有 趣 的 方式 由 文献 [73] 给 出 : 考虑 无 限 吉 布 斯 采样 马尔 
可 夫 链 。 这 个 链 在 := - o 开始 ， 并 在 1=0 结束 。 第 一 层 受 限 玻 尔 兹 曼 机 在 x 和 
之 间 交 替 采 样 。 在 ;为 偶数 时 采样 可 视 向 量 ， 在 ;为 奇数 时 采样 隐藏 向 量 。 这 条 
链 可 以 被 看 作 是 一 个 具有 绑 定 参数 (所 有 偶数 步骤 用 权重 矩阵 W, 奇数 步 骤 用 权 
重 矩 阵 W) 的 无 限 有 向 置信 网 络 。 换 种 方式 ， 如 图 8. 1 中 所 示 ， 根据 ;的 奇偶 ， 我 
们 能 通过 带 有 权重 矩阵 WW 或 W' 的 受 限 玻 尔 兹 曼 机 表示 从 t= -0 到 i = 7 的 任 一 子 
链 ， 并 获得 一 个 1 -7 层 (不 算 输入 层 ) 的 DBN。 这 个 观点 也 显示 出 ， 当 第 二 层 的 
权重 等 于 第 一 层 权 重 的 转 置 的 时 候 ， 一 个 两 层 的 DBN 等 价 于 单个 的 RBM。 
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RBM x =e = 














图 8.1 一 个 受 限 玻 尔 效 曼 机 能 被 展开 为 一 个 带 绑 定 权重 的 无 限 有 向 置信 网 络 〈 见 正文 ) 。 
如 左 图 所 示 ， 根 据 层 数 的 奇偶 性 ， 权 重 和 矩阵 W 或 它 的 转 置 会 被 使 用 。 这 个 随机 变量 序列 对 应 
于 一 个 吉 布 斯 马尔 可 夫 链 。 该 链 产 生 x，( 对 于 大 的 1)。 如 右 图 所 示 ，DBN 中 顶层 的 RBM 也 可 







































































以 用 同样 的 方式 展开 。 这 显示 一 个 深度 置信 网 络 是 一 个 无 限 有 向 图 模型 ， 其 中 一 些 层 是 绑 定 的 
(除了 底部 的 一 些 层 ) 








8.2 逐 层 贪心 训练 的 变 分 证 明 





在 这 里 ， 我 们 讨论 由 文献 [7 ha ene 即 增加 一 个 受 限 玻 尔 兹 曼 机 
层 会 提高 DBN 的 似 然 度 。 假 设 我 们 已 经 训练 了 一 个 受 限 玻 尔 效 曼 机 对 x 进行 建 
模 ， 通 过 两 个 条 件 分 布 0(h 1x) 和 Q(x1h" ) ， 它 为 我 们 提供 了 一 个 模型 0(x)。 
利用 上 一 小 节 的 说 法 ， 通 过 让 P(x lh!) = Q(xlh!)， 我 们 初始 化 一 个 等 价 的 两 层 
DBN， 即 生成 P(x) =Q(x), FFA PC! A?) 由 第 二 层 受 限 玻 尔 兹 曼 机 给 出 。 第 
二 层 权 重 和 矩阵 是 第 一 层 权 重 矩 阵 的 转 置 。 

现在 ， 让 我 们 回 过 头 来 看 公式 (8.1) 和 通过 改变 PCH!) YE DBN 似 然 度 
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的 目标 ， 即 保持 P(xclh!) A OCA! lx) Hae, 但 允许 第 二 层 受 限 玻 尔 兹 曼 机 变化 。 
有 趣 的 是 ， 随 着 KL 散 度 项 的 增加 ， 似 然 度 也 会 提高 。 初 始 为 P(h1x) =Q(h'| 
x), KLH 0 ( 即 只 能 增加 ) 并 且 在 公式 (8.1) 中 的 焙 不 依赖 于 DBN 的 
P(h!)。 因 此 ， 带 PC!) 的 项 上 的 小 改进 保证 了 log P(x) 的 增加 。 同 时 ，P(h1) 
项 的 进一步 提高 ( 即 第 二 层 受 限 玻 尔 效 曼 机 的 进一步 训练 ， 下 文 详 述 ) 并 不 会 
使 得 对 数 似 然 度 比 第 二 层 受 限 玻 尔 兹 曼 机 加 入 之 前 小 。 这 完全 是 因为 KL AT 
的 正 性 : 第 二 层 受 限 玻 尔 效 曼 机 的 再 训练 提高 了 对 数 似 然 度 的 下 界 〈( 见 式 
(8.2) ) ， 正 如 在 文献 【73 ] 中 表述 的 那样 。 这 验证 了 训练 第 二 层 受 限 玻 尔 兹 曼 
机 来 最 大 化 第 二 项 的 正确 性 。 这 里 第 二 项 是 训练 集 上 之 0( 如 1 x)log PUR!) 的 
期 望 。 
因此 ， 我 们 训练 第 二 层 受 限 玻 尔 兹 曼 机 来 最 大 化 关于 P(h') 的 如 下 式 子 : 
> P(x) QCh! |x) log P(h!) (8.3) 
T 
上 式 就 是 对 于 一 个 看 到 样本 h ARN ADR FE EIU, A ERER 及 是 从 由 联 
合 分 布 P(x)0(hilx) 推 出 的 册 的 边缘 分 布 中 采样 得 到 的 。 
如 果 我 们 保持 第 一 层 受 限 玻 尔 效 曼 机 不 变 ， 那 么 第 二 层 受 限 玻 尔 效 曼 机 可 以 
按 如 下 步骤 训练 : 从 训练 集中 采样 x， 然 后 再 采样 hi ~Q(h' Ix), BIR YEA 
二 级 受 限 玻 尔 效 曼 机 的 训练 样本 ( 即 作 为 “可 视 ” 向 量 的 观测 值 )。 如 果 对 
P(h!) 没 有 约束 ， 上 述 训练 准则 的 最 大 化 是 其 “经 验 ” 或 目标 分 布 
P* (h!) = ¥ P(x)O(h! Ix) (8.4) 
使 用 同样 的 论述 来 证 明 增 加 第 三 层 ， 以 此 类 推 。 我 们 可 以 按照 第 6. 1 节 得 到 
的 逐 层 贪心 训练 过 程 。 在 实际 中 ， 各 层 的 大 小 交 蔡 性 轮换 的 条 件 并 不 能 得 到 满 
E. Kik, BRAXE (在 加 上 了 层 大 小 限制 的 情况 下 ) 来 验证 用 前 一 层 的 权 
重 和 矩阵 转 置 来 初始 化 是 否 会 加 速 训 练 会 很 有 意思 ， 但 是 用 上 一 层 权 重 和 矩阵 的 转 置 
去 初始 化 新 加 的 受 限 玻 尔 效 曼 机 也 不 是 常见 的 做 法 [371 。 
需要 注意 的 是 ， 如 果 我 们 继续 训练 模型 的 顶层 部 分 (这 包括 再 添加 额外 的 
JB), ， 也 不 能 保证 log P(x) (一 般 在 训练 集 上 ) 将 会 单调 增加 。 随 着 我 们 的 下 界 
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继续 提高 ， 实 际 的 对 数 似 然 度 可 能 开始 下 降 。 让 我 们 更 仔细 考察 这 是 如 何 发 生 
的 。 这 将 需要 KL(QCh' lx) | PCA! 1x) ) 项 在 第 二 层 受 限 玻 尔 效 曼 机 继续 训练 的 
时 候 减 小 。 然 而 ， 这 通常 是 不 可 能 的 。 随 着 DBN 中 PC hh!) 越 来 越 偏离 第 一 层 受 
限 玻 尔 兹 曼 机 的 关于 大 的 边缘 分 布 Q( 太 ) ， 后 验 分 布 (请 1xz) (来 自 DBN) 和 
Q(hi ix) (来 自 受 限 玻 尔 效 曼 机 ) 也 可 能 会 互相 偏离 的 越 来 越 远 (因为 P(hi|l 
x) Q(xlh )P(h) , 并且 Q(h Ix)xQ(xlh )Q(h ))。 这 使 得 式 (8.1) 中 的 
KL 项 增 大 。 随 着 第 二 层 受 限 玻 尔 兹 曼 机 的 训练 似 然 度 增加 ，P (ha ) 平 稳 地 从 
Q(h') fle] P*(h')。 因 此 ， 下 面 的 推断 似乎 是 合理 的 : 继续 训练 第 二 层 受 限 玻 
尔 效 曼 机 可 以 提高 DBN 的 似 然 度 (不 只 是 最 初 的 时 候 ) ， 并 且 根 据 传递 性 ， 增 
加 更 多 的 层 也 可 能 提高 DBN 的 似 然 度 。 

然而 ， 如 果 我 们 认为 ， 从 任意 的 参数 设置 开始 ， 增 加 第 二 层 受 限 玻 尔 效 曼 机 
的 训练 似 然 度 都 会 保证 DBN 似 然 度 也 增加 ， 这 个 前 提 其 实 是 不 正确 的 。 因 为 至 
少 我 们 可 以 找到 一 个 病态 反例 (I Sutskever， 个 人 通信 得 到 的 信息 无 正式 参考 文 
献 ) 。 考 虑 下 面 的 情况 : 第 一 层 受 限 玻 尔 兹 曼 机 具有 非常 大 的 隐 层 偏 置 ， 以 至 于 
Q(h' |x) =Q(h') =1p -p =P* (W), 但 有 大 的 权重 和 小 的 可 视 偏 移 使 得 P(x,1h) = 
1, -hn,， 即 隐藏 向 量 被 复制 到 可 视 单元 。 当 用 第 一 层 受 限 玻 尔 兹 曼 机 权重 的 转 置 
来 初始 化 第 二 层 受 限 玻 尔 效 曼 机 的 时 候 ， 第 二 层 受 限 玻 尔 效 曼 机 的 训练 似 然 度 不 
会 被 提高 ，DBN 的 似 然 度 也 不 会 提高 。 尽 管 这 样 ， 如 果 第 二 层 受 限 玻 尔 效 曼 机 
是 从 一 个 “比较 坏 ” 的 参数 设置 开始 (从 其 训练 似 然 度 和 DBN 的 似 然 度 上 来 说 
比较 差 ) ， 则 PCh' ) 将 向 着 P* (Ch!) = 0(h ) 移 动 ， 使 得 第 二 层 受 限 玻 尔 兹 曼 机 
的 似 然 度 提高 而 KL 项 会 降低 ， 并 且 DBN 的 似 然 度 也 会 降低 。 只 要 第 二 层 受 限 玻 
尔 兹 曼 机 使 用 合适 的 初始 化 (复制 第 一 层 RBM) ， 这 些 情况 就 不 会 发 生 。 因 此 ， 
我 们 能 否 找到 可 以 保证 在 第 二 层 受 限 玻 尔 兹 曼 机 似 然 度 增加 的 时 候 ，DBN 的 似 
然 度 也 增加 的 条 件 (除了 以 上 提 到 的 之 外 ) ， 仍 然 是 一 个 未 解决 的 问题 。 

下 面 从 另 一 种 方式 上 解释 贪心 过 程 有 效 的 原因 ( Hinton，NIPS”2007 教 
程 )。 第 二 层 受 限 玻 尔 兹 曼 机 训练 分 布 (从 P* (A ) 中 采样 如 ) 看 起 来 更 像 是 由 
一 个 受 限 玻 尔 兹 曼 机 生成 的 数据 ， 而 不 是 原始 训练 分 布 P(x)。 这 是 因为 
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P* (WEERA P(x) 的 样本 上 使 用 受 限 玻 尔 兹 曼 机 吉 布 斯 链 的 一 个 子 步 又 得 
到 的 ， 并 且 我 们 知道 使 用 多 个 吉 布 斯 步 又 可 以 产生 来 自 那个 受 限 玻 尔 效 曼 机 的 
数据 。 

不 幸 的 是 ， 当 我 们 在 逐 层 贪心 过 程 中 训练 一 个 不 是 DBN 最 顶层 的 受 限 玻 尔 
效 曼 机 时 ， 我 们 并 没有 考虑 到 这 样 一 个 事实 : 为 了 改进 隐藏 节点 的 先 验 概率 ， 我 
们 在 之 后 会 增加 模型 容量 。 文 献 【102 ] 提出 采用 与 对 比 散 度 算法 不 同 的 一 些 蔡 
代 算 法 来 训练 受 限 玻 尔 兹 曼 机 ， 用 于 初始 化 DBN 的 中 间 层 。 具 体 想 法 是 ， 考 虑 
用 一 个 拥有 非常 高 容量 的 模型 (DBN 的 更 高 层 ) 对 P(h) 建 模 。 在 无 限 容量 的 极 
限 情况 下 ， 我 们 可 以 写 下 最 优 的 P(h) 是 : 通过 第 一 层 受 限 玻 尔 兹 曼 机 (或 者 之 
前 层 的 受 限 玻 尔 效 曼 机 ) 的 随机 映射 0(hlx) 得 到 的 经 验 分 布 上 的 一 个 随机 变 
换 ， 即 第 二 层 情 况 下 , sh (8.4) 中 的 P*。 将 其 代入 log P(x) 的 表达 式 中 , 我 
们 可 以 发 现 用 于 训练 第 一 层 受 限 玻 尔 效 曼 机 的 有 效 准 则 是 数据 分 布 和 经 过 一 步 吉 
布 斯 链 的 随机 重 构 向 量 的 分 布 之 间 的 KL BORE, Sea 证 实 ， 这 一 准则 可 以 对 
用 这 个 受 限 玻 尔 效 曼 机 初始 化 的 DBN 有 更 好 的 优化 。 不 幸 的 是 ， 这 个 准则 不 易 
使 用 ， 因 为 它 涉及 对 隐藏 向 量 严 的 所 有 配置 求 和 。 由 于 这 一 准则 看 起 来 像 是 随 
机 自动 编码 器 (与 降 噪 自动 编码 器 (1”] 相似 的 一 个 生成 模型 ) 的 重 构 误 差 的 一 
种 形式 ， 我 们 可 以 据 此 考虑 一 些 近似 算法 。 另 一 个 有 趣 的 蔡 代 方案 是 直接 在 
DBN 的 所 有 层 上 的 联合 优化 工作 。 这 将 在 下 一 节 进 行 探 讨 。 


8.3 所 有 层 的 联合 无 监督 训练 






































我 们 在 这 里 讨论 怎样 用 无 监督 的 方法 训练 一 个 完整 的 深度 结构 ， 比 如 深度 置 
信 网 络 ， 也 就 是 让 其 很 好 地 来 表达 输入 分 布 。 


8.3.1 Wake -Sleep 算法 


Wake -Sleep 算法 中 | 是 在 训练 sigmoid 置信 网 络 ( 即 这 个 网 络 的 顶层 单元 的 
分 布 可 以 进行 因 式 分 解 ) 的 时 候 提 出 的 。 该 算法 基于 一 个 “识别 ”模型 Chla) 
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(与 其 相伴 的 是 集合 0(x) 作 为 训练 集 分 布 )。 这 个 模型 用 作 生 成 模型 P(h,x) 的 
变 分 近似 。 这 里 我 们 令 h 表示 所 有 的 隐藏 层 。 在 深度 置信 网 络 中 ，Q(hlx) 如 之 
前 所 定义 〈 见 第 6.1), 通过 在 每 一 层 随机 地 向 上 传播 样本 ( 从 输入 层 到 更 高 
层 ) 来 计算 。 在 Wake - Sleep 算法 中 ， 我 们 从 生成 参数 (向 下 权 值 ， 用 于 计算 
P(x1h) ) 中 把 识别 参数 (向 上 权 值 ， 用 于 计算 0(hlx) ) 解 耦 出 来 。 这 个 算法 的 
基本 思想 很 简单 : 

1. Wake 阶段 : 从 训练 集中 采样 x， 生 成 严 ~ Q(hix) 然后 把 (hh,x) 当 作 完全 
可 观察 的 数据 来 训练 PC lh) MPC) 。 这 相当 于 对 下 式 做 一 次 随机 梯度 (下 
降 ) : 




















> Q(h lx) log P(x ,h) (8.5) 
h 
2. Sleep 阶段 : 从 模型 P(x,h) 中 采样 (h,x)， 然 后 把 它 当 作 完 全 可 观察 的 数 
据 来 训练 0(hlx)。 这 相当 于 对 下 式 做 一 次 随机 梯度 (下 降 ) : 


DP(h,x)log Q(h Ix) (8. 6) 
h,x 





假设 一 个 深度 置信 网 络 具有 分 层 结构 (Ch! h, =, hf), Wake 阶段 即 把 nt! 
(从 Q(hlx) 得 到 ) 看 作 顶 层 受 限 玻 尔 效 曼 机 的 训练 数据 ， 随 后 更 新 顶层 的 受 限 
玻 尔 效 曼 机 (ho h ZM), 
变 分 近似 的 思想 可 以 用 来 验证 Wake - Sleep 算法 的 正确 性 。 式 (8.1) 的 对 
数 似 然 度 可 以 分 解 为 
log P(x) = KL(Q(hIx) || P(h1x)) + Horw) + 





> Q(h |x) (log P(h) + log P(x Ih) ) (8.7) 
h 
这 表明 对 数 似 然 的 下 界 由 Helmholtz A FH AE! 9) F 的 相反 数 决 定 : 
log P(x) =KL(Q(hIx) || P(hix)) - F(x) = - F(x) (8.8) 


这 里 

F(x) =- Honey - 2, QCh |x) (log P(h) + log P(x |h)) (8.9) 
并 且 Q =P 时 等 号 成 立 。 变 分 方法 的 基本 思想 是 在 最 大 化 下 界 -的 同时 让 目标 
函数 与 下 界 的 差别 变 小 ， 即 最 小 化 KL(QO(hlx) || P(hlx))。 当 差别 较 小 时 ， 增 
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加 -F(x) 更 有 可 能 造成 log P(x) 的 增加 。 因 为 我 们 把 P 和 0 分 开 处 理 ， 所 以 我 
们 现在 能 够 看 到 Wake 和 Sleep 两 个 阶段 中 分 别 都 发 生 了 什么 。 在 Wake 阶段 中 令 
0 不 变 ， 做 一 次 随机 梯度 更 新 ， 以 最 大 化 训练 集 样本 x 对 应 的 P(x) 在 P 的 参数 
下 的 期 望 ( 即 我 们 不 关心 0 WI). Æ Sleep 阶段 中 ,我 们 理想 情况 下 是 想 让 0 
尽量 与 P 相 同 ， 从 而 让 KL(QChlx) || P(hlix)) (BI Q 为 基准 ) 最 小 。 但 是 由 
于 KL(Q(hlx) || P(hlx) ) 不 可 计算 ， 我们 转 而 最 小 化 KL(P(h,x) || Q(h,x)), 
以 P 为 基准 。 








8.3.2 ”将 深度 置信 和 网 络 转 换 为 玻 尔 兹 曼 机 


最 近 提 出 的 另 一 个 方法 ， 在 评测 后 发 现 能 够 生成 比 Wake - Sleep 算法 更 好 的 
结果 [91 。 正 如 第 6. 1 节 讨 论 过 的 ， 将 各 层 当 作 受 限 玻 尔 兹 曼 机 进行 初始 化 后 ， 
深度 置信 网 络 被 转换 成 了 一 个 相应 的 深度 玻 尔 效 曼 机 。 由 于 玻 尔 效 曼 机 的 每 个 神 
经 元 同时 从 上 层 和 下 层 接收 输入 ， 在 采用 受 限 玻 尔 效 曼 机 逐 层 构建 深度 玻 尔 效 曼 
机 时 ， 人 们 提出 应 该 将 受 限 玻 尔 兹 曼 机 的 权重 值 折 半 。 有 意思 的 是 ， 深 度 玻 尔 兹 
曼 机 中 的 受 限 玻 尔 兹 曼 机 初始 化 对 于 能 否 得 到 好 的 结果 至 关 重要 。 因 此 作者 们 提 
出 了 玻 尔 效 曼 机 中 正 相 和 负 相 梯度 计算 的 近似 方法 ( 见 第 5.2 节 及 式 (5. 16) ) 。 

对 于 正 相 阶 段 (原则 上 是 固定 x 后 ， 对 P(hlx) 进行 采样 ) ， 他 们 提出 了 一 
种 平均 场 松 弛 的 变 分 近似 (传播 给 定 其 他 神经 单元 时 每 个 神经 单元 的 条 件 概率 ， 
而 不 是 采样 得 到 的 数据 样本 ， 并 且 迭 代 几 十 次 后 使 得 它们 趋 于 稳定 ) 。 对 于 负 相 
阶段 (原则 上 需要 从 联合 概率 Ph, x) 中 采样 ) ， 他 们 提出 了 使 用 在 第 5. 4. 1 9 
中 讨论 过 的 ， 并 在 文献 [187] 中 引入 的 持续 性 蒙特 卡 罗 马 尔 可 夫 链 的 思想 。 这 
个 思想 是 保持 一 个 (h,x) 状 态 (或 者 是 粒子 ) 的 集合 ， 它 使 用 基于 目前 模型 的 一 
个 吉 布 斯 链 步 长 进行 更 新 ( 即 根 据 每 个 神经 元 在 给 定 前 一 步 中 其 他 神经 单元 的 
条 件 概 率 分 布 ， 对 每 个 神经 单元 进行 采样 )。 即 使 参数 一 直 在 非常 慢 的 变化 ,我 
们 仍 继续 使 用 一 样 的 马尔 可 夫 链 而 不 去 重新 构建 一 个 新 的 (正如 传统 玻 尔 兹 曼 
机 算法 做 的 那样 (71 761), 

这 个 方法 似乎 效果 很 好 。 文 献 [161] 报告 了 在 MNIST 数据 集 上 相对 深度 置 
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信和 网 络 在 两 个 指标 上 的 改进 。 这 两 个 指标 分 别 是 数据 对 数 似 然 度 (使 用 退火 重 
HERRUS 进行 评估 ) 和 分 类 错误 率 (在 有 监督 的 精 调 之 后 ) 。 其 中 ， 错 误 率 
可 以 从 1.2% 降 到 0.95%。 文献 [111] 也 将 训练 过 的 深度 置信 和 网络 转化 为 深度 
玻 尔 兹 曼 机 以 便于 从 中 得 到 采样 ， 这 里 的 深度 置信 网络 是 卷 积 结 构 。 





9.1 全 局 优化 策略 











正如 第 4.2 节 中 所 讨论 的 ， 在 深度 结构 中 使 用 逐 层 的 局 部 的 无 监督 预 训练 会 
产生 更 好 的 泛 化 能 力 。 部 分 的 解释 是 : 更 好 的 无 监督 模型 相关 的 参数 空间 初始 化 
监督 训练 ， 帮 助 它们 更 好 地 优化 了 低层 (接近 输入 端 )。 类 似 地 ， 如 果 要 达到 文 
HR [161] 中 所 描述 的 好 的 结果 ， 很 重要 的 一 点 是 将 深度 玻 尔 兹 曼 机 的 每 一 层 当 
作 一 个 受 限 玻 尔 效 曼 机 进行 初始 化 。 在 两 种 配置 中 ， 在 对 整个 深度 结构 进行 精 调 
之 前 ， 我 们 都 是 对 每 一 层 以 某 种 局 部 的 准则 分 别 进行 优化 。 

根据 延 拓 法 ( Continuation Method) B! 的 原则 ， 我 们 找到 了 现 有 工作 与 一 些 
困难 的 优化 问题 之 间 的 联系 。 这 些 方法 虽然 不 能 保证 获得 全 局 最 优 解 ， 但 是 在 一 
些 领域 ， 例 如 计算 化 学 里 ， 这 些 方法 在 寻找 复杂 的 分 子 结构 等 优化 问题 的 近似 解 
时 尤其 有 用 [35 ,1,2%] 。 其 基本 思想 是 ， 首 先 解决 一 个 经 过 简化 的 平滑 版 本 的 问 
题 ， 然 后 再 渐渐 考虑 不 那么 平 请 的 情况 ， 这 就 像 我 们 在 模拟 退火 算法 中 所 做 的 那 
样 [3] 。 直 觉 上 来 讲 , 平滑 版 本 的 问题 将 会 展示 问题 的 全 貌 。 可 以 定义 一 个 单 参 
数 的 损失 函数 族 C (90) ， 其 中 Cy 可 以 被 更 容易 地 优化 (在 9 中 可 能 是 凸 的 )， 
同时 C, 是 我 们 真正 想 去 最 小 化 的 标准 。 首 先 最 小 化 C0(0) ， 然 后 渐渐 地 增加 A, 
同时 保持 9 是 C， (09) 的 局 部 极 小 值 (Local Minima), if Cy 是 C, 的 高 度 平 滑 版 
本 ， 因 此 9 也 会 渐渐 移动 被 吸引 到 C 中 一 个 主要 的 极 小 值 点 的 吸引 域 (也 许 不 
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是 全 局 的 ) 。 


9.1.1 从 拓 延 法 角度 看 待 深度 置信 网 络 的 逐 层 贪心 训练 





第 6. 1 节 中 描述 了 基于 深度 置信 网络 的 逐 层 贪心 训练 算法 。 下 面 的 介绍 将 这 
种 算法 看 作 一 个 近似 的 拓 延 法 。 

首先 回忆 第 8. 1 节 所 描述 的 深度 置信 和 网络 的 顶层 受 限 玻 尔 兹 曼 机 可 以 被 展开 
成 一 个 绑 定 参数 的 无 限 有 向 图 模型 。 在 逐 层 贪心 过 程 的 每 一 步 中 ， 我 们 解除 顶层 
RBM 参数 和 倒数 第 二 层 的 参数 的 绑 定 。 所 以 ， 可 以 像 下 面 这 样 看 待 这 个 逐 层 步 
DE: 模型 结构 保持 不 变 ， 它 是 一 个 无 限 长 sigmoid 置信 层 的 链 ， 但 是 在 逐 层 步骤 
中 改变 参数 的 约束 。 初 始 时 所 有 的 层 都 是 绑 定 的 。 在 训练 完了 〈 即 在 约束 条 件 
下 进行 优化 ) 第 一 个 RBM 之 后 ， 我 们 将 解除 第 一 层 的 参数 与 其 他 参数 之 间 的 约 
束 。 在 训练 完 (在 稍微 放宽 的 一 些 的 约束 条 件 进行 优化 ) 第 二 个 RBM 之 后 , 我 
们 解除 第 二 层 参数 与 其 他 参数 之 间 的 约束 ， 以 此 类 推 。 

不 同 于 一 个 连续 的 训练 标准 ， 我 们 有 一 个 离散 的 逐渐 变 困 难 的 优化 问题 序 
列 。 通 过 将 这 个 过 程 变 成 贪心 算法 ,我 们 在 前 层 训 练 结束 之 后 ， 固 定 住 前 和 层 
的 参数 ， 只 优化 第 上 +1 层 ， 即 训练 一 个 RBM。 为 了 做 严格 的 类 比 ， 我 们 需要 用 
前 一 层 的 权重 的 转 置 初始 化 新 加 入 的 层 的 权重 。 还 要 注意 逐 层 贪心 的 方法 只 优化 
新 层 的 参数 ， 而 不 会 优化 所 有 参数 。 

即使 上 述 分 析 采 用 了 很 多 近似 ， 它 仍然 给 出 了 逐 层 贪心 方法 为 何 能 得 到 更 好 


的 结果 的 一 个 解释 。 
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9.1.2 无 监督 向 有 监督 的 转变 


很 多 论文 中 的 实验 都 清楚 地 表明 无 监督 预 训练 加 上 有 监督 训练 的 精 调 对 于 次 
度 结构 有 非常 好 的 效果 。 尽 管 之 前 在 合并 有 监督 学 习 和 无 监督 学 习 准 则 的 工作 侧 
重 于 在 无 监督 学 习 的 准则 中 加 入 正则 项 〈 以 及 在 半 监 督学 习 中 加 入 无 标注 的 数 
据 ) [0 ， 第 4. 2 节 中 的 讨论 揭示 了 ， 深度 网 络 的 无 监督 预 训练 所 带 来 的 改进 其 
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实 部 分 的 来 源 于 深度 结构 中 的 低层 部 分 有 更 好 的 优化 。 

很 多 研究 工作 着 重 于 先 采 用 无 监督 表示 学 习 (HEURA), ， 然 后 用 判别 
准则 精 调 或 者 结合 判别 准则 和 无 监督 准则 对 这 个 学 习 到 的 表示 进行 精 
PALS 97, 211 。 

在 文献 [97] 中 ,一 个 RBM 使 用 由 两 部 分 组 成 的 可 视 向 量 来 完成 训练 。 可 视 
向 量 这 两 部 分 包括 输入 x 和 目标 类 别 y。 这 样 一 个 RBM 可 以 用 两 种 方式 训练 : 对 
联合 概率 分 布 P(x,y) 进行 训练 (如 通过 对 比 散 度 算法 ) 或 者 对 条 件 概率 P(ylx) 
进行 建 模 (精确 的 条 件 对 数 似 然 的 梯度 是 可 以 求 得 的 )。 在 文献 [97] 中 报告 了 结 
合 两 种 准则 之 后 的 最 好 结果 , 但 是 这 个 模型 使 用 了 非 判 别 准则 来 初始 化 。 

在 文献 [6, 121] 中 ， 稀 琉 编 码 系统 中 训练 解码 器 基底 的 任务 与 在 稀 琉 编码 
上 训练 分 类 器 的 任务 被 结合 在 一 起 。 在 使 用 非 判 别 学 习 初始 化 解码 器 基底 之 后 ， 
可 以 使 用 判别 准则 对 稀 朴 表示 的 相关 参数 ( 即 产生 稀 玻 编码 的 第 一 层 的 基底 ) 
和 一 组 分 类 器 的 参数 (例如 ， 一 个 将 表示 码 作为 输入 的 线性 分 类 器 ) 进行 联合 
精 调 。 根 据 文献 [121] ， 尝 试 直接 优化 有 监督 准则 且 不 预先 使 用 非 判 别 准则 初 
始 化 ， 会 导致 非常 差 的 性 能 。 实 际 上 ， 这 篇 文章 提出 了 一 个 由 非 判 别 准则 到 判别 
准则 的 平滑 过 渡 ， 也 即 采用 延 拓 法 的 思想 去 优化 判别 准则 。 

















9.1.3 温度 控制 





即使 只 优化 一 个 单 层 RBM 的 对 数 似 然 ， 也 可 能 是 一 个 棘手 的 事情 。 事 实证 明 
随机 梯度 下 降 的 使 用 (比如 对 比 散 度 算法 ) 和 较 小 的 初始 权重 也 与 延 拓 法 很 类 似 ， 
并 且 很 容易 转变 成 延 拓 法 。 考 虑 对 应 于 RBM 的 正则 路 径 ![ 反 ] 的 一 族 优化 问题 ， 比 
如 使 用 参数 的 1 范 数 作为 正则 项 ， 以 As (0,1] 为 参数 得 到 的 一 族 训 练 函 数 : 

cC, (0) =- > log P,(x;) - || @||7log A (9.1) 

当 A0 的 时 候 ， 有 0-0， 并 且 可 以 证 明 RBM 的 对 数 似 然 度 会 变 成 8 的 凸 
函数 。 当 A 一 1 的 时 候 ， 没 有 正则 项 〈 注 意 当 训练 集 特别 小 的 时 候 ， 有 些 A 的 中 
间 值 可 能 更 有 利于 泛 化 ) 。 控 制 RBM 的 偏 置 和 权重 的 大 小 等 价 于 在 一 个 玻 尔 效 
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曼 机 中 控制 温度 (“ 温 度 ” 是 一 个 能 量 函 数 的 缩放 系数 ) 。 高 温 对 应 于 高 度 随 机 
化 的 系统 。 极 限 情况 下 ， 它 是 一 个 输入 上 的 阶乘 式 的 均匀 分 布 。 低 温 对 应 于 更 确 
定 的 系统 ， 这 种 情况 下 只 有 很 少 的 可 行 配 置 是 有 意义 的 。 

有 趣 的 是 ， 我 们 通常 可 以 观察 到 使 用 较 小 的 权重 初始 化 的 随机 梯度 下 降 渐渐 
地 允许 权重 的 幅度 增加 ， 这 样 可 以 近似 地 沿 着 正则 路 径 优化 。 提 前 终止 是 一 个 众 
所 周知 而 且 高 效 的 模型 容量 控制 策略 ， 其 基于 训练 过 程 中 在 验证 集 上 监控 的 性 
能 ， 保 持 在 验证 集 误 差 上 的 最 好 的 参数 。 提 前 终止 与 2 范 数 正 则 化 〈 连 同 间隔 
最 大 化 ) 的 数学 关联 已 经 被 提出 :535201 : 从 较 小 的 参数 开始 进行 梯度 下 降 产 生 

逐渐 大 的 参数 ， 对 应 于 渐渐 变 小 的 正则 化 训练 标准 。 然 而 ， 如 果 使 用 常规 随机 梯 
度 下 降 (没有 明确 的 正则 项 ) ， 则 无 法 保证 能 够 追踪 一 系列 与 式 (9.1) 中 入 值 
相关 的 局 部 极 小 值 。 通 过 显 式 地 控制 入， 对 随机 梯度 下 降 算法 进行 一 些微 小 的 修 
改 可 能 会 让 它 更 好 地 追踪 正则 路 径 ( 即 让 它 更 接近 延 拓 法 )。 对 于 当前 入， 当 优 
化 过 程 足够 接近 局 部 最 优 解 时 ， 逐 渐 增 加 入 的 值 。 注 意 ， 相 同 的 技巧 可 能 可 以 
拓展 到 其 他 的 机 器 学 习 领 域 解决 困难 的 优化 问题 ， 比 如 训练 一 个 次 度 监 督 神经 网 
络 。 我 们 乔 望 从 一 个 全 局 最 优 解 开始 ， 然 后 逐渐 追踪 局 部 极 小 值 ; 从 很 大 的 正则 
项 开始 ， 逐 渐变 成 很 小 的 正则 项 或 者 没有 。 












































9.1.4 E. 课程 式 的 训练 


男 一 种 延 拓 法 是 : 逐渐 转变 训练 任务 ， 使 其 从 一 个 简单 的 任务 〈 其 中 样本 
能 表达 更 简单 的 概念 ， 通 常 是 凸 的 ) 到 目标 任务 (有 更 复杂 的 样本 ) 。 人 类 需要 
20 年 才能 训练 成 为 适应 社会 的 成 人 个 体 。 这 种 训练 是 高 度 组 织 化 的 ， 它 依赖 于 

个 教育 系统 和 一 套 课程 ， 这 些 课程 在 不 同时 间 引 入 不 同 的 概念 ， 并 利用 之 前 所 
学 的 概念 使 学 习 新 的 抽象 概念 更 容易 。 
通过 一 套 “ 课 程 ”去 训练 一 个 学 习 机 器 的 思想 可 以 追溯 到 文献 [49]。 最 基 
础 的 想法 是 从 小 入 手 ， 即 先 学 习 一 个 任务 中 较 容易 的 某 个 方面 或 者 学 习 更 简单 的 
子 任务 ,然后 渐渐 增加 难度 等 级 。 从 建立 表示 的 观点 来 看 ， 这 里 提出 的 基本 思想 
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是 : 首先 学 习 能 抓 住 浅 层 抽象 的 表示 ， 然 后 进行 组 合 ， 去 学 习 揭 示 数 据 中 更 复杂 
的 结构 所 必 备 的 稍微 高 阶 一 些 的 抽象 。 通 过 选择 哪些 训练 数据 应 该 被 利用 以 及 采 
用 何 种 顺序 去 使 用 ， 我 们 可 以 有 效 的 指导 训练 过 程 并 且 显著 提升 学 习 速 度 。 这 个 
想法 通常 用 在 “动物 训练 ”中 ， 并 且 被 称 为 “ 塑 形 "'%”, 77) 。 

塑 形 以 及 课程 的 使 用 也 能 被 当 作 延 拓 法 。 下 面 讨论 将 这 种 延 拓 法 用 于 一 个 学 
习 问 题 : 对 于 训练 集 的 数据 分 布 户 进行 建 模 。 这 个 想法 就 是 从 训练 集 的 数据 分 
布 中 重新 确定 采样 的 概率 权重 ， 根 据 给 定 的 学 习 计 划 ， 由 一 个 最 简单 的 样本 开 
始 ， 逐 渐 向 展现 更 高 阶 抽象 的 样本 移动 。 在 计划 的 上 时刻， 我 们 从 分 布 己 开始 
WI, AP, =P, BP BGA TAT EAN. 与 很 多 延 拓 法 一 样 ， 
当 学 习 者 在 1 时 刻 触 碰 到 一 个 局 部 极 小 值 的 时 候 ， 即 它 已 经 足够 了 解 之 前 的 样本 
(从 PP, 中 采样 得 到 ), 则 进入 计划 表 中 的 下 一 个 时 刻 。 当 训练 分 布 中 采样 样本 的 
概率 有 了 平滑 的 改变 时 ， 对 上 时刻 的 分 布 也 做 出 小 的 改变 ， 由 此 我 们 构造 出 了 一 
条 始 于 简单 的 学 习 问 题 ， 结 束 于 期 望 的 训练 分 布 的 连续 路 径 。 这 个 想法 后 来 在 文 
献 [20] 中 得 到 发 展 。 实 验 显 示 ， 在 视觉 和 语言 领域 ， 相 较 于 只 在 目标 分 布 上 训 
练 ， 使 用 课程 训练 目标 分 布 有 更 好 的 泛 化 能 

逐 层 贪心 和 塑 形 /课程 的 思想 之 间 有 一 定 的 关联 。 在 两 种 情况 中 ， 我 们 都 希 
望 利 用 同样 的 原理 ， 即 一 旦 学 好 合适 的 低 阶 抽象 ， 高 阶 抽象 可 以 更 方便 地 学 习 。 
在 逐 层 方法 中 ， 这 一 点 是 由 基于 已 经 学 习 的 低 阶 概念 逐渐 增加 模型 容量 做 到 的 。 
我 们 控制 训练 样本 ， 使 得 在 涉及 更 高 级 概念 的 样本 出 现 之 前 ， 保 证 简单 的 概念 已 
经 学 会 了 。 就 像 人 类 在 没有 先 理 解 基础 概念 之 前 很 难 掌握 一 个 新 的 想法 ， 展 现 更 
高 级 的 复杂 概念 很 可 能 只 是 在 浪费 时 间 。 

采用 “课程 ”的 思想 ， 除 了 学 习 者 和 训练 数据 的 分 布 ， 或 者 环境 之 外 ,我 
们 还 引入 了 一 个 “老师 ”。 老 师 可 以 使 用 两 种 来 源 的 信息 在 日 程 表 上 做 安排 : 
(D 对 于 概念 序列 的 先 验 知识 ， 当 它们 以 哪 种 方式 呈现 时 会 更 好 得 被 学 习 。 避 监视 
学 习 者 的 学 习 进度 ， 去 决定 何 时 继续 课表 中 的 新 知识 。 老 师 有 必要 选择 新 样本 的 
难度 等 级 : 在 “ 太 简 单 ”( 学 习 者 不 需要 改变 模型 就 能 解决 这 些 例 子 ) 和 “ 太 困 
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难 ”( 学 习 者 在 解释 这 些 例 子 方面 不 能 做 出 进一步 的 改变 ， 因 此 它们 最 有 可 能 
当 作 异常 值 或 者 特例 ， 不 利于 汉化 ) 之 间 进 行 折 中 。 


9.2 无 监督 学 习 的 重要 性 


本 书 的 一 个 论点 是 ， 强 大 的 无 监督 或 半 监 督学 习 (或 自学 习 ) 是 建立 面向 
人 工 智能 的 深度 结构 学 习 算 法 的 至 关 重要 的 部 分 之 一 。 下 面 简要 列举 了 支持 这 一 
观点 的 论据 : 

。 有 标注 数据 的 稀缺 性 和 无 标注 数据 的 广泛 存在 (可 能 不 仅 限于 感 兴趣 的 
目标 类 别 ， 正 如 自学 习 [%] 中 的 那样 ) 。 

。 未 知 的 未 来 任务 : 如 果 一 个 学 习 机 器 并 不 知道 未 来 需要 应 对 的 学 习 任务 
是 什么 样 的 ， 但 知道 这 一 任务 将 定义 在 某 个 外 界 环 境 里 ( 即 可 观测 的 随机 变量 
上 ) ， 那 么 尽 可 能 地 收集 和 融合 关于 那个 环境 下 的 信息 以 便 学 习 其 运行 机 制 是 非 
常 合理 的 。 

e 一 且 学 习 到 了 很 好 的 高 层 表 示 ， 其 他 学 习 方 法 (比如 有 监督 或 强化 学 习 ) 
将 会 非常 简单 。 例 如 ， 我们 知道 核 机 器 (Kernal Machine) 如 果 使 用 合适 的 核 
( 即 特征 空间 ) ， 它 将 会 非常 有 效 。 类 似 地 ， 在 反馈 动作 可 以 通过 对 合适 的 特征 
进行 线性 组 合 来 获取 的 情况 下 ， 我 们 知道 强化 学 习 是 有 保障 的 。 我 们 并 不 知道 合 
适 的 表示 应 该 是 什么 样子 ， 但 是 当 它 捕捉 到 输入 数据 变化 中 的 显著 特点 并 将 其 分 
离 出 来 ， 那 么 我 们 可 以 认为 这 是 一 种 有 效 表 达 。 

。 逐 层 无 监督 学 习 : 我 们 在 第 4. 3 节 进 行 了 详 述 。 大 部 分 学 习 可 以 使 用 一 
个 层级 或 者 子 层 的 局 部 可 用 信息 来 进行 ， 因 此 避免 了 之 前 讨论 过 的 有 监督 学 习 中 
可 能 出 现 的 梯度 传递 问题 ， 即 大 的 扇 入 元 素 在 长 链 中 的 梯度 传递 问题 。 

。 结合 之 前 的 两 个 观点 ， 无 监督 学 习 可 以 将 有 监督 或 强化 学 习 的 参数 放置 
在 一 个 通过 梯度 下 降 (局 部 优化 ) 可 以 得 到 较 好 结果 的 区 域 上 。 在 几 个 场景 
该 观点 都 已 被 经 验 性 的 验证 ， 特 别 是 图 4. 2 中 的 实验 以 及 文献 [17, 98, 50], 

。 在 优化 问题 上 加 入 额外 的 约束 条 件 会 有 助 于 避免 泛 化 能 力 明 显 很 差 的 局 
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部 极 值 ( 即 没有 对 输入 分 布 进 行 较 好 的 建 模 ) ， 这 些 约束 条 件 应 当 要 求 模型 不 仅 
捕捉 输入 到 输出 的 关联 ， 而 且 获 取 输入 分 布 中 的 统计 规律 。 注 意 ， 通 常 额外 的 约 
柬 条 件 也 会 引入 更 多 的 局 部 极 值 ， 但 我 们 在 实验 中 观察 到 :7] ， 无 监督 的 预 训练 
可 以 减少 训练 和 测试 误差 ， 这 也 表明 无 监督 学 习 可 以 将 参数 空间 移动 到 特殊 的 区 
BR, 这 个 区 域 中 的 局 部 极 值 对 应 于 一 个 较 好 的 特征 表示 。 文 献 [71] 认为 (但 
未 成 定论 ) ， 无 监督 学 习 比 有 监督 学 习 更 不 易 出 现 过 拟 合 。 深 度 结构 通常 用 于 建 
立 一 个 有 监督 分 类 咒 ， 在 这 种 情况 下 无 监督 学 习 模 块 显 然 可 以 被 视 为 一 个 正则 化 
项 或 一 种 先 验 W137,109, 118, 50] ， 以 使 得 最 终 得 到 的 模型 参数 不 仅 在 给 定 输入 数据 上 
建 模 较 好 ， 同 时 还 可 以 捕捉 输入 的 概率 分 布 的 结构 。 


9.3 开放 的 问题 








针对 深度 结构 的 研究 目前 仍 不 充分 ， 仍 有 许多 问题 等 待 解决 。 以 下 就 包括 一 
些 可 能 很 有 意义 的 问题 : 

1. 电路 中 计算 深度 的 成 果 能 和 否 推广 到 逻辑 门 和 线性 阔 值 单元 之 外 ? 

2. 是 否 存在 一 个 基本 够 用 的 深度 ， 用 来 接近 人 类 在 AI 任务 上 的 能 力 ? 

3. 关于 固定 输入 大 小 的 电路 深度 的 理论 结果 ， 如 何 推 广 到 基于 递归 计算 的 
时 变动 态 电路 上 ? 

4. 为 什么 基于 梯度 的 深度 神经 网 络 训练 使 用 随机 初始 化 时 通常 不 成 功 ? 

5. 基于 对 比 散 度 方法 训练 的 RBM 是否 能 很 好 地 保持 输入 数据 的 信息 ( 因为 
它们 并 不 像 自 编码 器 那样 训练 ， 它 们 将 会 丢失 一 些 最 终 可 能 是 有 用 的 信息 ); 如 
果 不 能 ， 那 能 如 何 弥补 ? 

6. 深度 结构 的 有 监督 训练 准则 〈 比 如 在 深度 玻 尔 兹 曼 机 和 DBN 中 的 对 数 域 
似 然 度 ) 是 否 充满 了 局 部 极 小 值 ? 或 者 仅 是 针对 该 准则 的 优化 算法 过 于 复杂 而 
RGF (EUERE FERH BS EIS ) 2 

7. 局 部 最 优 的 存在 是 否 是 RBM 训练 中 的 一 个 主要 问题 ? 

8. 是 否 存在 一 个 算法 可 以 替换 受 限 玻 尔 效 曼 机 和 上 自 编码 器 ? 这 样 的 算法 能 
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更 好 地 提取 有 效 的 特征 表示 ， 同 时 其 优化 算法 更 简单 (甚至 可 能 是 是 优化 ) 。 

9. 当前 的 深度 结构 训练 算法 包含 了 许多 阶段 〈 逐 层 训 练 ， 加 上 最 后 统一 进 
行 精 调 ) 。 这 在 完全 在 线 环境 下 并 不 现实 ， 因 为 一 旦 开始 进行 精 调 ， 将 会 陷入 一 
个 明显 的 局 部 极 小 值 。 是 否 可 以 提出 一 个 包含 无 监督 学 习 模 块 的 完全 在 线 优 化 的 
方式 来 训练 深度 结构 ? 注意 , 文献 [202] 正在 做 相关 的 研究 。 

10. 在 对 比 散 度 训练 中 是 否 应 该 对 吉 布 斯 采样 的 步 长 进行 调整 ? 

11. 将 计算 时 间 考 虑 在 内 的 情况 下 ， 我 们 是 否 还 能 明显 改善 对 比 散 度 方法 ? 
最 近 有 些 新 替代 方法 被 提出 ， 值 得 进一步 研究 [51571881 。 

12. 除了 重建 误差 ， 是 和 否 还 有 更 合适 的 方法 来 对 RBM 和 DBN 的 训练 进行 控 
制 ? 相应 地 ， 在 RBM 和 DBN 中 是 否 存在 可 控 的 配 分 函数 的 近似 形式 ? 最近， 采 
用 退火 重要 性 采样 方法 的 研究 结果 取得 了 邻 人 鼓舞 的 进展 ,133]， 

13. RBM 和 自 编码 器 是 否 可 以 通过 引入 对 学 习 表 示 的 稀疏 程度 的 惩罚 项 加 
以 改进 ? 最 好 的 做 法 是 怎样 的 ? 

14. 如 果 不 增加 隐藏 层 节 点 数 ，RBM 模型 的 容量 是 否 可 以 通过 使 用 非 参 数 化 
形式 的 能 量 函 数 以 得 到 增强 ? 

15. 由 于 我 们 对 单一 去 噪 自 编码 器 只 有 一 个 生成 模型 的 版 本 ， 是 否 存在 对 堆 
友 自 编码 器 和 堆 县 去 噪 自 编 码 器 模型 的 一 个 概率 解释 ? 

16. 在 DBN 中 进行 逐 层 贪心 训练 ( 即 最 大 化 训练 数据 似 然 度 ) 的 效率 怎么 
样 ? 这 种 方法 是 否 会 过 于 贪心 ? 

17. 针对 DBN 和 相关 深度 生成 模型 的 对 数 似 然 度 梯度 ， 是 否 能 得 到 低 方 差 
和 低 偏差 的 佑 计 方 法 ， 是 否 可 以 联合 训练 所 有 层 (用 无 监督 的 目标 函数 )? 

18. 本 书 讨论 的 无 监督 的 逐 层 训练 方法 可 以 帮助 训练 深度 结构 ， 但 是 实验 显 
示 训 练 仍然 会 陷入 明显 的 局 部 极 值 ， 因 此 不 能 够 很 好 的 利用 大 数据 集中 的 全 部 信 
息 。 这 种 观点 是 否 正 确 ? 我 们 是 否 可 以 开发 更 强大 的 对 深层 结构 的 优化 策略 来 突 
破 这 些 限 制 ? 

19. 基于 延 拓 方法 的 优化 策略 是 否 可 以 在 训练 深度 结构 时 明显 改善 性 能 ? 

20. 除了 深度 置信 网 络 、 堆 番 自 动 编码 器 、 深 度 玻 尔 兹 曼 机 ， 是 否 还 存在 其 

















































































































9 Æ BW 9 


他 可 以 有 效 训练 的 深度 结构 ? 

21. 一 些 高 级 抽象 概念 往往 花费 人 类 数 年 或 数 十 年 来 学 习 。 是 否 需 要 一 个 课 
程 来 学 习 各 种 这 样 的 高 级 抽象 概念 ? 

22. 在 训练 深度 结构 中 发 现 的 准则 是 否 能 被 应 用 和 推广 到 训练 循环 网 络 和 动 
态 置信 网 络 中 ?这 类 网 络 对 上 下 文 和 较 长 依赖 关系 进行 学 习 。 

23. 由 于 信息 的 维度 大 小 和 结构 具有 可 变性 ( 比如 树 和 图 结构 )， 某 些 信息 
不 太 容 易 用 向 量 表示 。 那 么 深度 结构 如 何 推广 以 表示 这 些 直观 上 并 不 容易 表示 的 
信息 ? 

24. 虽然 深度 置信 网 络 在 本 质 上 非常 适合 半 监 督 和 自学 习 场 景 ， 但 将 当前 的 
深度 学 习 算 法 应 用 于 这 些 场景 的 最 好 方式 仍 有 等 探索。 另外 ， 与 现 有 半 监 督 算 法 
的 比较 ， 它 们 表现 如 何 ? 

25. 当 有 标注 数据 存在 时 ， 有 监督 和 无 监督 学 习 的 准则 如 何 结合 以 便 更 好 地 
学 习 模 型 输入 的 学 习 表 示 ? 

26. 对 比 散 度 和 深度 置信 网络 学 习 在 计算 上 ， 是 否 可 以 找到 对 应 于 人 脑 运 转 
中 的 实际 过 程 ? 

27. 大 脑 皮 层 与 前 馈 人 工 神经 网 络 的 一 个 区 别 点 在 于 存在 显著 的 反馈 连接 
(比如 ， 从 视觉 处 理 后 期 阶段 中 反馈 到 视觉 处 理 早期 阶段 ) ， 这 样 的 连接 不 仅 在 
学 习 过 程 起 作用 (如 在 RBM 中 ) ， 而 且 对 融合 视觉 证 据 与 前 后 文 信息 的 先 验 知 
WA FAME) 。 什 么 样 的 模型 能 在 深度 结构 中 产生 这 样 的 交互 过 程 ， 并 合理 地 采 
用 这 样 的 方式 学 习 ? 



























































本 书 的 开始 部 分 图 述 了 使 用 深度 结构 的 动机 。 首 先 ， 本 书 论述 了 使 用 学 习 算 
法 来 解决 人 工 智能 任务 的 方式 ， 然 后 从 直观 的 角度 探讨 了 将 学 习 问 题 转化 为 多 层 
级 的 计算 和 表示 形式 的 合理 性 。 在 接着 的 理论 分 析 中 显示 ， 当 没有 使 用 足够 层级 
的 架构 做 计算 时 ， 计 算 元 素 的 需求 会 是 庞大 的 。 我 们 也 注意 到 在 学 习 高 可 变 函 数 
(Highly Varying Function) 时 ， 只 依赖 局 部 泛 化 的 学 习 算法 不 大 可 能 有 好 的 泛 化 
能 力 。 

在 讨论 深度 结构 和 算法 之 前 ， 我 们 先 说 明了 使 用 分 布 式 的 表示 来 表达 数据 的 
动因 。 这 种 表征 形式 不 但 让 输入 的 抽象 特征 拥有 大 的 可 行 域 成 为 可 能 ， 而 且 允 许 
系统 能 紧凑 地 表示 每 个 样本 。 同 时 ， 它 也 打开 了 通 向 拥有 更 多 一 般 化 形式 的 途 
径 。 紧 接着 本 书 详细 讨论 了 如 何 通过 训练 深度 结构 来 成 功 地 学 习 多 个 层级 上 的 分 
布 式 表示 。 尽 管 在 这 种 深度 结构 中 标准 的 梯度 算法 失效 的 原因 还 有 待考 察 ， 但 近 
年 来 引入 的 几 个 算法 表现 出 了 比 这 种 简单 梯度 优化 算法 更 好 的 性 能 。 男 外 ， 也 解 
释 了 这 些 算法 之 所 以 有 效 的 基本 原理 。 

虽然 这 本 书 大 部 分 专注 于 深度 神经 网 络 和 深度 图 模型 结构 ,但 是 探索 深度 结 
构 中 的 学 习 算 法 应 该 超越 神经 网 络 框架 。 举 个 例子 来 说 ， 考 虑 使 用 多 层级 的 想法 
来 扩展 决策 树 算 法 和 助 推算 法 (Boosting) 将 是 非常 有 意义 的 。 

核 学 习 算 法 是 另 一 条 值得 探索 的 方向 。 这 是 因为 ， 能 捕获 目标 分 布 特性 的 抽 
象 表示 的 特征 空间 也 正 是 适合 使 用 核 机 天方 法 的 空间 。 这 个 方向 的 研究 应 考虑 学 
到 的 核 函 数 能 够 有 非 局 部 的 泛 化 能 力 。 这 样 可 以 避免 当 试 图 学 习 高 可 变 函 数 时 出 
现在 3. 1 节 中 提 到 的 维 数 灾难 。 


















































本 书 侧重 于 讨论 一 类 特定 的 算法 一 一 深度 置信 网 络 。 它 的 组 成 元 素 : 受 限 玻 
尔 兹 曼 机 ， 以 及 其 近亲 :不同 种 类 的 可 以 堆 秋 在 一 起 形成 一 个 深度 结构 的 自动 编 
码 右 。 对 于 受 限 玻 尔 兹 曼 机 ， 我 们 通过 讨论 对 数 似 然 梯度 的 估计 子 之 间 的 关系 ， 
验证 了 训练 时 使 用 对 比 散 度 更 新 的 正确 性 。 

我 们 着 重 阐述 了 一 种 在 深度 置信 网 络 和 相关 的 堆 秋 自动 编码 器 中 表现 良好 的 
优化 原则 。 这 种 优化 原则 是 对 于 模型 的 每 一 层 使 用 贪心 式 的 逐 层 无 监督 初始 化 。 
我 们 发 现 ， 这 种 优化 原则 实际 上 是 一 种 更 普遍 意义 上 的 、 在 所 谓 的 延 拓 方法 中 使 
用 的 优化 原则 的 近似 。 使 用 这 种 原则 时 ， 一 系列 逐渐 变 难 的 优化 问题 被 依次 解 
决 。 这 给 出 了 优化 深度 结构 的 新 途径 : 要么 通过 正则 化 路 径 寻 找 解 决 方案 ， 要 人 么 
类 似 于 使 用 训练 学 生 或 动物 的 方式 ， 用 一 系列 经 过 选择 的 代表 越 来 越 复杂 概念 的 
样本 来 表征 系统 。 


























x | 


作者 非常 感谢 来 自 Yann LeCun, Aaron Courville, Olivier Delalleau, Dumitru 
Erhan, Pascal Vincent, Geoffrey Hinton, Joseph Turian, Hugo Larochelle, Nicolas 
Le Roux, Jerome Louradour, Pascal Lamblin, James Bergstra, Pierre — Antoine 
Manzagol 和 Xavier Glorot 的 思路 启发 和 有 益 建议 。 这 项 研究 得 以 开展 还 要 感谢 来 
自 NSERC，MITACS 和 加 拿 大 研究 主席 会 的 资助 。 


[1] 
[2] 


[10] 


[11] 


参考 文献 


D. H. Ackley, G. E. Hinton, and T. J. Sejnowski, “A learning algorithm 
for boltzmann machines,” Cognitive Science, vol. 9, pp. 147-169, 1985. 


A. Ahmed, K. Yu, W. Xu, Y. Gong, and E. P. Xing, “Training hier- 
archical feed-forward visual recognition models using transfer learning 
from pseudo tasks,” in Proceedings of the 10th European Conference on 
Computer Vision (ECCV’08), pp. 69-82, 2008. 


E. L. Allgower and K. Georg, Numerical Continuation Methods. An 
Introduction. No. 13 in Springer Series in Computational Mathematics, 
Springer-Verlag, 1980. 


C. Andrieu, N. de Freitas, A. Doucet, and M. Jordan, “An introduction 
to MCMC for machine learning,” Machine Learning, vol. 50, pp. 5-48, 
2003. 


D. Attwell and S. B. Laughlin, “An energy budget for signaling in 
the grey matter of the brain,” Journal of Cerebral Blood Flow And 
Metabolism, vol. 21, pp. 1133-1145, 2001. 


J. A. Bagnell and D. M. Bradley, “Differentiable sparse coding,” in 
Advances in Neural Information Processing Systems 21 (NIPS’08), 
(D. Koller, D. Schuurmans, Y. Bengio, and L. Bottou, eds.), NIPS Foun- 
dation, 2009. 


J. Baxter, “Learning internal representations,” in Proceedings of the 
8th International Conference on Computational Learning Theory 
(COLT’95), pp. 311-320, Santa Cruz, California: ACM Press, 1995. 


J. Baxter, “A Bayesian/information theoretic model of learning via mul- 
tiple task sampling,” Machine Learning, vol. 28, pp. 7-40, 1997. 


M. Belkin, I. Matveeva, and P. Niyogi, “Regularization and semi- 
supervised learning on large graphs,” in Proceedings of the 17th Inter- 
national Conference on Computational Learning Theory (COLT’04), 
(J. Shawe-Taylor and Y. Singer, eds.), pp. 624-638, Springer, 2004. 


M. Belkin and P. Niyogi, “Using manifold structure for partially labeled 
classification,” in Advances in Neural Information Processing Systems 
15 (NIPS’02), (S. Becker, S. Thrun, and K. Obermayer, eds.), Cam- 


bridge, MA: MIT Press, 2003. 


A. J. Bell and T. J. Sejnowski, “An information maximisation ap- 
proach to blind separation and blind deconvolution,” Neural Compu- 


tation, vol. 7, no. 6, pp. 1129-1159, 1995. 


100) 人 工 智能 中 的 深度 结构 学 习 


[12] 


[13] 


[14] 


[15] 


[16] 


[17] 


[18] 


[19] 


[20] 


[21] 


[22] 


[23] 


Y. Bengio and O. Delalleau, “Justifying and generalizing contrastive 
divergence,” Neural Computation, vol. 21, no. 6, pp. 1601-1621, 2009. 


Y. Bengio, O. Delalleau, and N. Le Roux, “The curse of highly variable 
functions for local kernel machines,” in Advances in Neural Information 
Processing Systems 18 (NIPS’05), (Y. Weiss, B. Schölkopf, and J. Platt, 
eds.), pp. 107-114, Cambridge, MA: MIT Press, 2006. 


Y. Bengio, O. Delalleau, and C. Simard, “Decision trees do not gener- 
alize to new variations,” Computational Intelligence, 2009. To appear. 


Y. Bengio, R. Ducharme, and P. Vincent, “A neural probabilistic lan- 
guage model,” in Advances in Neural Information Processing Systems 
13 (NIPS’00), (T. Leen, T. Dietterich, and V. Tresp, eds.), pp. 933-938, 
MIT Press, 2001. 


Y. Bengio, R. Ducharme, P. Vincent, and C. Jauvin, “A neural proba- 
bilistic language model,” Journal of Machine Learning Research, vol. 3, 
pp. 1187-1155, 2003. 


Y. Bengio, P. Lamblin, D. Popovici, and H. Larochelle, “Greedy layer- 
wise training of deep networks,” in Advances in Neural Information 
Processing Systems 19 (NIPS’06), (B. Schélkopf, J. Platt, and T. Hoff- 
man, eds.), pp. 153-160, MIT Press, 2007. 


Y. Bengio, N. Le Roux, P. Vincent, O. Delalleau, and P. Marcotte, 
“Convex neural networks,” in Advances in Neural Information Process- 
ing Systems 18 (NIPS’05), (Y. Weiss, B. Scholkopf, and J. Platt, eds.), 
pp. 123-130, Cambridge, MA: MIT Press, 2006. 


Y. Bengio and Y. LeCun, “Scaling learning algorithms towards AI,” in 
Large Scale Kernel Machines, (L. Bottou, O. Chapelle, D. DeCoste, and 
J. Weston, eds.), MIT Press, 2007. 


Y. Bengio, J. Louradour, R. Collobert, and J. Weston, “Curriculum 
learning,” in Proceedings of the Twenty-sixth InternationalConference 
onMachine Learning (ICML 09), (L. Bottou and M. Littman, eds.), 
pp. 41 —48, Montreal: ACM, 2009. 


Y. Bengio, M. Monperrus, and H. Larochelle, “Non-local estimation of 
manifold structure,” Neural Computation, vol. 18, no. 10, pp. 2509-2528, 
2006. 


Y. Bengio, P. Simard, and P. Frasconi, “Learning long-term dependen- 
cies with gradient descent is difficult,” IEEE Transactions on Neural 
Networks, vol. 5, no. 2, pp. 157-166, 1994. 


J. Bergstra and Y. Bengio, “Slow, decorrelated features for pretraining 
complex cell-like networks,” in Advances in Neural Information Process- 


参考 文献 人 101 


ing Systems 22 (NIPS’09), (D. Schuurmans, Y. Bengio, C. Williams, 
J. Lafferty, and A. Culotta, eds.), December 2010. 


[24] B. E. Boser, I. M. Guyon, and V. N. Vapnik, “A training algorithm for 
optimal margin classifiers,” in Fifth Annual Workshop on Computational 
Learning Theory, pp. 144-152, Pittsburgh: ACM, 1992. 


25) H. Bourlard and Y. Kamp, “Auto-association by multilayer percep- 
trons and singular value decomposition,” Biological Cybernetics, vol. 59, 
pp. 291-294, 1988. 


26] M. Brand, “Charting a manifold,” in Advances in Neural Information 
Processing Systems 15 (NIPS’02), (S. Becker, S. Thrun, and K. Ober- 
mayer, eds.), pp. 961-968, MIT Press, 2003. 


27| L. Breiman, “Random forests,” Machine Learning, vol. 45, no. 1, pp. 5- 
32, 2001. 


28| L. Breiman, J. H. Friedman, R. A. Olshen, and C. J. Stone, Classifi- 
cation and Regression Trees. Belmont, CA: Wadsworth International 
Group, 1984. 


29| L. D. Brown, Fundamentals of Statistical Exponential Families. 1986. 
Vol. 9, Inst. of Math. Statist. Lecture Notes Monograph Series. 








30] E. Candes and T. Tao, “Decoding by linear programming,” IEEE Trans- 

actions on Information Theory, vol. 15, no. 12, pp. 4203-4215, 2005. 

31| M. A. Carreira-Perpifian and G. E. Hinton, “On contrastive divergence 
learning,” in Proceedings of the Tenth International Workshop on Ar- 
tificial Intelligence and Statistics (AISTATS’05), (R. G. Cowell and 
Z. Ghahramani, eds.), pp. 33-40, Society for Artificial Intelligence and 
Statistics, 2005. 








32| R. Caruana, “Multitask connectionist learning,” in Proceedings of the 


1993 Connectionist Models Summer School, pp. 372-379, 1993. 


33] P. Clifford, “Markov random fields in statistics,” in Disorder in Physical 
Systems: A Volume in Honour of John M. Hammersley, (G. Grimmett 
and D. Welsh, eds.), pp. 19-32, Oxford University Press, 1990. 


34| D. Cohn, Z. Ghahramani, and M. I. Jordan, “Active learning with statis- 
tical models,” in Advances in Neural Information Processing Systems 7 
(NIPS’94), (G. Tesauro, D. Touretzky, and T. Leen, eds.), pp. 705-712, 
Cambridge MA: MIT Press, 1995. 


[35] T. F. Coleman and Z. Wu, “Parallel continuation-based global optimiza- 
tion for molecular conformation and protein folding,” Technical Report 
Cornell University, Dept. of Computer Science, 1994. 


[36] R. Collobert and S. Bengio, “Links between perceptrons, MLPs and 








102 ) 人 工 智能 中 的 深度 结构 学 习 


[37] 


41 


42 








43 


[44 


[45 


ES 
D 


SVMs,” in Proceedings of the Twenty-first International Conference on 
Machine Learning (ICML’04), (C. E. Brodley, ed.), p. 23, New York, 
NY, USA: ACM, 2004. 


R. Collobert and J. Weston, “A unified architecture for natural lan- 
guage processing: Deep neural networks with multitask learning,” in 
Proceedings of the Twenty-fifth International Conference on Machine 
Learning (ICML’08), (W. W. Cohen, A. McCallum, and S. T. Roweis, 
eds.), pp. 160-167, ACM, 2008. 


C. Cortes, P. Haffner, and M. Mohri, “Rational kernels: Theory and 
algorithms,” Journal of Machine Learning Research, vol. 5, pp. 1035- 
1062, 2004. 


C. Cortes and V. Vapnik, “Support vector networks,” Machine Learning, 
vol. 20, pp. 273-297, 1995. 


N. Cristianini, J. Shawe-Taylor, A. Elisseeff, and J. Kandola, “On 
kernel-target alignment,” in Advances in Neural Information Processing 
Systems 14 (NIPS’01), (T. Dietterich, S. Becker, and Z. Ghahramani, 
eds.), pp. 367-373, 2002. 


F. Cucker and D. Grigoriev, “Complexity lower bounds for approxima- 
tion algebraic computation trees,” Journal of Complexity, vol. 15, no. 4, 
pp. 499-512, 1999. 


P. Dayan, G. E. Hinton, R. Neal, and R. Zemel, “The Helmholtz ma- 
chine,” Neural Computation, vol. 7, pp. 889-904, 1995. 


S. Deerwester, S. T. Dumais, G. W. Furnas, T. K. Landauer, and 
R. Harshman, “Indexing by latent semantic analysis,” Journal of the 
American Society for Information Science, vol. 41, no. 6, pp. 391-407, 
1990. 


O. Delalleau, Y. Bengio, and N. L. Roux, “Efficient non-parametric 
function induction in semi-supervised learning,” in Proceedings of the 
Tenth International Workshop on Artificial Intelligence and Statistics, 
(R. G. Cowell and Z. Ghahramani, eds.), pp. 96-103, Society for Arti- 
ficial Intelligence and Statistics, January 2005. 


G. Desjardins and Y. Bengio, “Empirical evaluation of convolutional 
rbms for vision,” Technical Report 1327, Département d’Informatique 
et de Recherche Opérationnelle, Université de Montréal, 2008. 


E. Doi, D. C. Balcan, and M. S. Lewicki, “A theoretical analysis of 
robust coding over noisy overcomplete channels,” in Advances in Neural 
Information Processing Systems 18 (NIPS’05), (Y. Weiss, B. Schélkopf, 
and J. Platt, eds.), pp. 307-314, Cambridge, MA: MIT Press, 2006. 


47 


48 


49 








50 


55 


57 








58 


参考 文献 人 103 


D. Donoho, “Compressed sensing,” IEEE Transactions on Information 
Theory, vol. 52, no. 4, pp. 1289-1306, 2006. 


S. Duane, A. Kennedy, B. Pendleton, and D. Roweth, “Hybrid Monte 
Carlo,” Phys. Lett. B, vol. 195, pp. 216-222, 1987. 


J. L. Elman, “Learning and development in neural networks: The im- 
portance of starting small,” Cognition, vol. 48, pp. 781-799, 1993. 


D. Erhan, P.-A. Manzagol, Y. Bengio, S. Bengio, and P. Vincent, “The 
difficulty of training deep architectures and the effect of unsupervised 
pre-training,” in Proceedings of The Twelfth International Conference 
on Artificial Intelligence and Statistics (AISTATS’09), pp. 153-160, 
2009. 


Y. Freund and D. Haussler, “Unsupervised learning of distributions on 
binary vectors using two layer networks,” Technical Report UCSC-CRL- 
94-25, University of California, Santa Cruz, 1994. 


Y. Freund and R. E. Schapire, “Experiments with a new boosting algo- 
rithm,” in Machine Learning: Proceedings of Thirteenth International 
Conference, pp. 148-156, USA: ACM, 1996. 


B. J. Frey, G. E. Hinton, and P. Dayan, “Does the wake-sleep algo- 
rithm learn good density estimators?,” in Advances in Neural Informa- 
tion Processing Systems 8 (NIPS’95), (D. Touretzky, M. Mozer, and 
M. Hasselmo, eds.), pp. 661-670, Cambridge, MA: MIT Press, 1996. 


K. Fukushima, “Neocognitron: A self-organizing neural network model 
for a mechanism of pattern recognition unaffected by shift in position,” 
Biological Cybernetics, vol. 36, pp. 193-202, 1980. 


P. Gallinari, Y. LeCun, S. Thiria, and F. Fogelman-Soulie, “Memoires 
associatives distribuees,” in Proceedings of COGNITIVA 87, Paris, La 
Villette, 1987. 


T. Gartner, “A survey of kernels for structured data,” ACM SIGKDD 
Explorations Newsletter, vol. 5, no. 1, pp. 49-58, 2003. 


S. Geman and D. Geman, “Stochastic relaxation, gibbs distributions, 
and the Bayesian restoration of images,” IEEE Transactions on Pattern 
Analysis and Machine Intelligence, vol. 6, pp. 721-741, November 1984. 


R. Grosse, R. Raina, H. Kwong, and A. Y. Ng, “Shift-invariant sparse 
coding for audio classification,” in Proceedings of the Twenty-third Con- 
ference on Uncertainty in Artificial Intelligence (UAI’07), 2007. 


R. Hadsell, S. Chopra, and Y. LeCun, “Dimensionality reduction by 
learning an invariant mapping,” in Proceedings of the Computer Vision 
and Pattern Recognition Conference (CVPR’06), pp. 1735-1742, IEEE 
Press, 2006. 


104) 人 工 智 能 中 的 深度 结构 学 习 


[60] 


[67] 


[68] 


69 


70 


71 








72 


R. Hadsell, A. Erkan, P. Sermanet, M. Scoffier, U. Muller, and Y. Le- 
Cun, “Deep belief net learning in a long-range vision system for au- 
tonomous off-road driving,” in Proc. Intelligent Robots and Systems 
(IROS’08), pp. 628-633, 2008. 


J. M. Hammersley and P. Clifford, “Markov field on finite graphs and 
lattices,” Unpublished manuscript, 1971. 


J. Hastad, “Almost optimal lower bounds for small depth circuits,” in 
Proceedings of the 18th annual ACM Symposium on Theory of Com- 
puting, pp. 6-20, Berkeley, California: ACM Press, 1986. 


J. Hastad and M. Goldmann, “On the power of small-depth threshold 
circuits,” Computational Complexity, vol. 1, pp. 113-129, 1991. 


T. Hastie, S. Rosset, R. Tibshirani, and J. Zhu, “The entire regulariza- 
tion path for the support vector machine,” Journal of Machine Learning 
Research, vol. 5, pp. 13891-1415, 2004. 


K. A. Heller and Z. Ghahramani, “A nonparametric bayesian approach 
to modeling overlapping clusters,” in Proceedings of the Eleventh In- 
ternational Conference on Artificial Intelligence and Statistics (AIS- 
TATS’07), pp. 187-194, San Juan, Porto Rico: Omnipress, 2007. 


K. A. Heller, S. Williamson, and Z. Ghahramani, “Statistical models for 
partial membership,” in Proceedings of the Twenty-fifth International 
Conference on Machine Learning (ICML’08), (W. W. Cohen, A. Mc- 
Callum, and S. T. Roweis, eds.), pp. 392-399, ACM, 2008. 


G. Hinton and J. Anderson, Parallel Models of Associative Memory. 
Hillsdale, NJ: Lawrence Erlbaum Assoc., 1981. 


G. E. Hinton, “Learning distributed representations of concepts,” in 
Proceedings of the Eighth Annual Conference of the Cognitive Science 
Society, pp. 1-12, Amherst: Lawrence Erlbaum, Hillsdale, 1986. 


G. E. Hinton, “Products of experts,” in Proceedings of the Ninth In- 
ternational Conference on Artificial Neural Networks (ICANN), vol. 1, 
pp. 1-6, Edinburgh, Scotland: TEE, 1999. 


G. E. Hinton, “Training products of experts by minimizing contrastive 
divergence,” Neural Computation, vol. 14, pp. 1771-1800, 2002. 


G. E. Hinton, “To recognize shapes, first learn to generate images,” 
Technical Report UTML TR 2006-003, University of Toronto, 2006. 


G. E. Hinton, P. Dayan, B. J. Frey, and R. M. Neal, “The wake-sleep al- 
gorithm for unsupervised neural networks,” Science, vol. 268, pp. 1558- 
1161, 1995. 


73 


74 


75 








76 


[77] 


[78] 


[79] 


[80] 


[81] 


[82] 


[83] 


参考 文献 人 105 


G. E. Hinton, S. Osindero, and Y. Teh, “A fast learning algorithm for 
deep belief nets,” Neural Computation, vol. 18, pp. 1527-1554, 2006. 


G. E. Hinton and R. Salakhutdinov, “Reducing the dimensionality of 
data with neural networks,” Science, vol. 313, no. 5786, pp. 504-507, 
2006. 


G. E. Hinton and R. Salakhutdinov, “Reducing the dimensionality of 
data with neural networks,” Science, vol. 313, pp. 504-507, 2006. 


G. E. Hinton and T. J. Sejnowski, “Learning and relearning in Boltz- 
mann machines,” in Parallel Distributed Processing: Explorations in the 
Microstructure of Cognition. Volume 1: Foundations, (D. E. Rumelhart 
and J. L. McClelland, eds.), pp. 282-317, Cambridge, MA: MIT Press, 
1986. 

G. E. Hinton, T. J. Sejnowski, and D. H. Ackley, “Boltzmann ma- 
chines: Constraint satisfaction networks that learn,” Technical Report 
TR-CMU-CS-84-119, Carnegie-Mellon University, Dept. of Computer 
Science, 1984. 

G. E. Hinton, M. Welling, Y. W. Teh, and S. Osindero, “A new view of 
ICA,” in Proceedings of 3rd International Conference on Independent 
Component Analysis and Blind Signal Separation (ICA’01), pp. 746- 
751, San Diego, CA, 2001. 


G. E. Hinton and R. S. Zemel, “Autoencoders, minimum description 
length, and helmholtz free energy,” in Advances in Neural Information 
Processing Systems 6 (NIPS’93), (D. Cowan, G. Tesauro, and J. Al- 
spector, eds.), pp. 3-10, Morgan Kaufmann Publishers, Inc., 1994. 


T. K. Ho, “Random decision forest,” in 3rd International Conference 
on Document Analysis and Recognition (ICDAR’95), pp. 278-282, Mon- 
treal, Canada, 1995. 


S. Hochreiter 1991. Untersuchungen zu dynamischen neuronalen Net- 
zen. Diploma thesis, Institut ftir Informatik, Lehrstuhl Prof. Brauer, 
Technische Universitat München. 


H. Hotelling, “Analysis of a complex of statistical variables into principal 
components,” Journal of Educational Psychology, vol. 24, pp. 417-441, 
498-520, 1933. 


D. H. Hubel and T. N. Wiesel, “Receptive fields, binocular interaction, 
and functional architecture in the cat’s visual cortex,” Journal of Phys- 
iology (London), vol. 160, pp. 106-154, 1962. 


A. Hyvärinen, “Estimation of non-normalized statistical models using 
score matching,” Journal of Machine Learning Research, vol. 6, pp. 695- 
709, 2005. 


106) 人工 智 能 中 的 深度 结构 学 习 


85 


86 


87 


88 








89 


90 


91 





92 


[97 











A. Hyvärinen, “Connections between score matching, contrastive di- 
vergence, and pseudolikelihood for continuous-valued variables,” IEEE 
Transactions on Neural Networks, vol. 18, pp. 1529-1531, 2007. 


A. Hyvärinen, “Some extensions of score matching,” Computational 
Statistics and Data Analysis, vol. 51, pp. 2499-2512, 2007. 


A. Hyvärinen, J. Karhunen, and E. Oja, Independent Component Anal- 
ysis. Wiley-Interscience, May 2001. 


N. Intrator and S. Edelman, “How to make a low-dimensional represen- 
tation suitable for diverse tasks,” Connection Science, Special issue on 
Transfer in Neural Networks, vol. 8, pp. 205-224, 1996. 


T. Jaakkola and D. Haussler, “Exploiting generative models in dis- 
criminative classifiers,” Available from http://www.cse.ucsc.edu/ haus- 
sler/pubs.html, Preprint, Dept.of Computer Science, Univ. of Califor- 
nia. A shorter version is in Advances in Neural Information Processing 
Systems 11, 1998. 


N. Japkowicz, S. J. Hanson, and M. A. Gluck, “Nonlinear autoassoci- 
ation is not equivalent to PCA,” Neural Computation, vol. 12, no. 3, 
pp. 531-545, 2000. 


M. I. Jordan, Learning in Graphical Models. Dordrecht, Netherlands: 
Kluwer, 1998. 


K. Kavukcuoglu, M. Ranzato, and Y. LeCun, “Fast inference in sparse 
coding algorithms with applications to object recognition,” Technical 
Report, Computational and Biological Learning Lab, Courant Institute, 
NYU, 2008. Technical Report CBLL-TR-2008-12-01. 


S. Kirkpatrick, C. D. G. Jr., and M. P. Vecchi, “Optimization by sim- 
ulated annealing,” Science, vol. 220, pp. 671—680, 1983. 


U. Köster and A. Hyvärinen, “A two-layer ICA-like model esti- 
mated by score matching,” in Int. Conf. Artificial Neural Networks 
(ICANN’2007), pp. 798-807, 2007. 


K. A. Krueger and P. Dayan, “Flexible shaping: How learning in small 
steps helps,” Cognition, vol. 110, pp. 380-394, 2009. 


G. Lanckriet, N. Cristianini, P. Bartlett, L. El Gahoui, and M. Jordan, 
“Learning the kernel matrix with semi-definite programming,” in Pro- 
ceedings of the Nineteenth International Conference on Machine Learn- 
ing ICML’02), (C. Sammut and A. G. Hoffmann, eds.), pp. 323-330, 
Morgan Kaufmann, 2002. 


H. Larochelle and Y. Bengio, “Classification using discriminative re- 
stricted Boltzmann machines,” in Proceedings of the Twenty-fifth Inter- 


参考 文献 人 107 


national Conference on Machine Learning (ICML’08), (W. W. Cohen, 
A. McCallum, and S. T. Roweis, eds.), pp. 536-543, ACM, 2008. 


[98] H. Larochelle, Y. Bengio, J. Louradour, and P. Lamblin, “Exploring 
strategies for training deep neural networks,” Journal of Machine Learn- 
ing Research, vol. 10, pp. 1-40, 2009. 


[99] H. Larochelle, D. Erhan, A. Courville, J. Bergstra, and Y. Bengio, “An 
empirical evaluation of deep architectures on problems with many fac- 
tors of variation,” in Proceedings of the Twenty-fourth International 
Conference on Machine Learning (ICML’07), (Z. Ghahramani, ed.), 
pp. 473-480, ACM, 2007. 


[100] J. A. Lasserre, C. M. Bishop, and T. P. Minka, “Principled hybrids 
of generative and discriminative models,” in Proceedings of the Com- 
puter Vision and Pattern Recognition Conference (CVPR’06), pp. 87- 
94, Washington, DC, USA, 2006. IEEE Computer Society. 


[101] Y. Le Cun, L. Bottou, Y. Bengio, and P. Haffner, “Gradient-based learn- 
ing applied to document recognition,” Proceedings of the IEEE, vol. 86, 
no. 11, pp. 2278-2324, 1998. 


102] N. Le Roux and Y. Bengio, “Representational power of restricted boltz- 
mann machines and deep belief networks,” Neural Computation, vol. 20, 
no. 6, pp. 1631-1649, 2008. 


103] Y. LeCun, “Modèles connexionistes de l’apprentissage,” PhD thesis, 
Université de Paris VI, 1987. 


104] Y. LeCun, B. Boser, J. S. Denker, D. Henderson, R. E. Howard, W. Hub- 
bard, and L. D. Jackel, “Backpropagation applied to handwritten zip 
code recognition,” Neural Computation, vol. 1, no. 4, pp. 541-551, 1989. 


105| Y. LeCun, L. Bottou, G. B. Orr, and K.-R. Müller, “Efficient Back- 
Prop,” in Neural Networks: Tricks of the Trade, (G. B. Orr and K.-R. 
Müller, eds.), pp. 9-50, Springer, 1998. 


106] Y. LeCun, S. Chopra, R. M. Hadsell, M.-A. Ranzato, and F.-J. Huang, 
“A tutorial on energy-based learning,” in Predicting Structured Data, 
pp. 191-246, G. Bakir and T. Hofman and B. Scholkopf and A. Smola 
and B. Taskar: MIT Press, 2006. 


[107] Y. LeCun and F. Huang, “Loss functions for discriminative training of 
energy-based models,” in Proceedings of the Tenth International Work- 
shop on Artificial Intelligence and Statistics (AISTATS’05), (R. G. Cow- 
ell and Z. Ghahramani, eds.), 2005. 




















[108] Y. LeCun, F.-J. Huang, and L. Bottou, “Learning methods for generic 
object recognition with invariance to pose and lighting,” in Proceed- 


108) 人 工 智 能 中 的 深度 结构 学 习 


[109] 


[110] 


[111] 


[119] 


ings of the Computer Vision and Pattern Recognition Conference 
(CVPR’04), vol. 2, pp. 97-104, Los Alamitos, CA, USA: IEEE Com- 
puter Society, 2004. 


H. Lee, A. Battle, R. Raina, and A. Ng, “Efficient sparse coding al- 
gorithms,” in Advances in Neural Information Processing Systems 19 
(NIPS’06), (B. Schölkopf, J. Platt, and T. Hoffman, eds.), pp. 801-808, 
MIT Press, 2007. 


H. Lee, C. Ekanadham, and A. Ng, “Sparse deep belief net model for 
visual area V2,” in Advances in Neural Information Processing Systems 
20 (NIPS’07), (J. Platt, D. Koller, Y. Singer, and S. P. Roweis, eds.), 
Cambridge, MA: MIT Press, 2008. 


H. Lee, R. Grosse, R. Ranganath, and A. Y. Ng, “Convolutional deep 
belief networks for scalable unsupervised learning of hierarchical rep- 
resentations,” in Proceedings of the Twenty-sixth International Confer- 
ence on Machine Learning (ICML’09), (L. Bottou and M. Littman, 
eds.), Montreal (Qc), Canada: ACM, 2009. 


T.-S. Lee and D. Mumford, “Hierarchical bayesian inference in the vi- 
sual cortex,” Journal of Optical Society of America, A, vol. 20, no. 7, 
pp. 1434-1448, 2003. 


P. Lennie, “The cost of cortical computation,” Current Biology, vol. 13, 
pp. 493-497, Mar 18 2003. 


I. Levner, Data Driven Object Segmentation. 2008. PhD thesis, Depart- 
ment of Computer Science, University of Alberta. 


M. Lewicki and T. Sejnowski, “Learning nonlinear overcomplete rep- 
resentations for efficient coding,” in Advances in Neural Information 
Processing Systems 10 (NIPS’97), (M. Jordan, M. Kearns, and S. Solla, 
eds.), pp. 556-562, Cambridge, MA, USA: MIT Press, 1998. 


M. S. Lewicki and T. J. Sejnowski, “Learning overcomplete representa- 
tions,” Neural Computation, vol. 12, no. 2, pp. 337-865, 2000. 


M. Li and P. Vitanyi, An Introduction to Kolmogorov Complexity and 
Its Applications. New York, NY: Springer, second ed., 1997. 


P. Liang and M. I. Jordan, “An asymptotic analysis of generative, dis- 
criminative, and pseudolikelihood estimators,” in Proceedings of the 
Twenty-fifth International Conference on Machine Learning (ICML’08), 
(W. W. Cohen, A. McCallum, and S. T. Roweis, eds.), pp. 584-591, New 
York, NY, USA: ACM, 2008. 


T. Lin, B. G. Horne, P. Tino, and C. L. Giles, “Learning long-term 
dependencies is not as difficult with NARX recurrent neural networks,” 


[120] 


[121] 


122 


123 








124 








125 


[126] 


[127] 


[128] 


[129] 


[130] 


[131] 


参考 文献 人 109 


Technical Report UMICAS-TR-95-78, Institute for Advanced Computer 
Studies, University of Mariland, 1995. 


G. Loosli, S. Canu, and L. Bottou, “Training invariant support vector 
machines using selective sampling,” in Large Scale Kernel Machines, 
(L. Bottou, O. Chapelle, D. DeCoste, and J. Weston, eds.), pp. 301- 
320, Cambridge, MA: MIT Press, 2007. 


J. Mairal, F. Bach, J. Ponce, G. Sapiro, and A. Zisserman, “Super- 
vised dictionary learning,” in Advances in Neural Information Process- 
ing Systems 21 (NIPS’08), (D. Koller, D. Schuurmans, Y. Bengio, and 
L. Bottou, eds.), pp. 1033-1040, 2009. NIPS Foundation. 


J. L. McClelland and D. E. Rumelhart, “An interactive activation model 
of context effects in letter perception,” Psychological Review, pp. 375- 
407, 1981. 


J. L. McClelland and D. E. Rumelhart, Explorations in parallel dis- 
tributed processing. Cambridge: MIT Press, 1988. 


J. L. McClelland, D. E. Rumelhart, and the PDP Research Group, Par- 
allel Distributed Processing: Explorations in the Microstructure of Cog- 
nition, vol. 2. Cambridge: MIT Press, 1986. 


W. S. McCulloch and W. Pitts, “A logical calculus of ideas immanent in 
nervous activity,” Bulletin of Mathematical Biophysics, vol. 5, pp. 115- 
133, 1943. 


R. Memisevic and G. E. Hinton, “Unsupervised learning of image trans- 
formations,” in Proceedings of the Computer Vision and Pattern Recog- 


nition Conference (CVPR’07), 2007. 


E. Mendelson, Introduction to Mathematical Logic, 4th ed. 1997. Chap- 
man & Hall. 


R. Miikkulainen and M. G. Dyer, “Natural language processing with 
modular PDP networks and distributed lexicon,” Cognitive Science, 
vol. 15, pp. 343-399, 1991. 


A. Mnih and G. E. Hinton, “Three new graphical models for statistical 
language modelling,” in Proceedings of the Twenty-fourth International 
Conference on Machine Learning (ICML’07), (Z. Ghahramani, ed.), 
pp. 641-648, ACM, 2007. 


A. Mnih and G. E. Hinton, “A scalable hierarchical distributed lan- 
guage model,” in Advances in Neural Information Processing Systems 
21 (NIPS’08), (D. Koller, D. Schuurmans, Y. Bengio, and L. Bottou, 
eds.), pp. 1081-1088, 2009. 


H. Mobahi, R. Collobert, and J. Weston, “Deep learning from temporal 


110) 人 工 智能 中 的 深度 结构 学 习 


[132] 


[133] 


134 


135 


136 








137 


[138] 


[139] 


[140] 


[141] 


[142] 


[143] 


coherence in video,” in Proceedings of the 26th International Conference 
on Machine Learning, (L. Bottou and M. Littman, eds.), pp. 737-744, 
Montreal: Omnipress, June 2009. 


J. More and Z. Wu, “Smoothing techniques for macromolecular global 
optimization,” in Nonlinear Optimization and Applications, (G. D. Pillo 
and F. Giannessi, eds.), Plenum Press, 1996. 


I. Murray and R. Salakhutdinov, “Evaluating probabilities under high- 
dimensional latent variable models,” in Advances in Neural Information 
Processing Systems 21 (NIPS’08), vol. 21, (D. Koller, D. Schuurmans, 
Y. Bengio, and L. Bottou, eds.), pp. 1137-1144, 2009. 


J. Mutch and D. G. Lowe, “Object class recognition and localization us- 
ing sparse features with limited receptive fields,” International Journal 
of Computer Vision, vol. 80, no. 1, pp. 45-57, 2008. 


R. M. Neal, “Connectionist learning of belief networks,” Artificial In- 
telligence, vol. 56, pp. 71-118, 1992. 


R. M. Neal, “Bayesian learning for neural networks,” 1994. PhD thesis, 
Department of Computer Science, University of Toronto. 


A. Y. Ng and M. I. Jordan, “On discriminative vs. generative classifiers: 
A comparison of logistic regression and naive bayes,” in Advances in 
Neural Information Processing Systems 14 (NIPS’01), (T. Dietterich, 
S. Becker, and Z. Ghahramani, eds.), pp. 841-848, 2002. 


J. Niebles and L. Fei-Fei, “A hierarchical model of shape and appearance 
for human action classification,” in Proceedings of the Computer Vision 
and Pattern Recognition Conference (CVPR’07), 2007. 


B. A. Olshausen and D. J. Field, “Sparse coding with an overcom- 
plete basis set: a strategy employed by V1?,” Vision Research, vol. 37, 
pp. 3311-3325, December 1997. 


P. Orponen, “Computational complexity of neural networks: a survey,” 
Nordic Journal of Computing, vol. 1, no. 1, pp. 94-110, 1994. 


S. Osindero and G. E. Hinton, “Modeling image patches with a directed 
hierarchy of markov random field,” in Advances in Neural Information 
Processing Systems 20 (NIPS’07), (J. Platt, D. Koller, Y. Singer, and 
S. Roweis, eds.), pp. 1121-1128, Cambridge, MA: MIT Press, 2008. 


B. Pearlmutter and L. C. Parra, “A context-sensitive generalization of 
ICA,” in International Conference On Neural Information Processing, 
(L. Xu, ed.), pp. 151-157, Hong-Kong, 1996. 


E. Pérez and L. A. Rendell, “Learning despite concept variation by find- 
ing structure in attribute-based data,” in Proceedings of the Thirteenth 


[144] 


[145] 


[146] 
[147] 


[148] 


[149] 


[150] 


[152] 


[153] 


[154] 


参考 文献 人 111 


International Conference on Machine Learning (ICML’96), (L. Saitta, 
ed.), pp. 391-399, Morgan Kaufmann, 1996. 


G. B. Peterson, “A day of great illumination: B. F. Skinner’s discovery 
of shaping,” Journal of the Experimental Analysis of Behavior, vol. 82, 
no. 3, pp. 317-328, 2004. 


N. Pinto, J. DiCarlo, and D. Cox, “Establishing good benchmarks and 
baselines for face recognition,” in ECCV 2008 Faces in ’Real-Life’ Im- 
ages Workshop, 2008. Marseille France, Erik Learned-Miller and Andras 
Ferencz and Frédéric Jurie. 


J. B. Pollack, “Recursive distributed representations,” Artificial Intelli- 
gence, vol. 46, no. 1, pp. 77-105, 1990. 


L. R. Rabiner and B. H. Juang, “An introduction to hidden Markov 
models,” IEEE ASSP Magazine, pp. 257-285, january 1986. 


R. Raina, A. Battle, H. Lee, B. Packer, and A. Y. Ng, “Self-taught 
learning: transfer learning from unlabeled data,” in Proceedings of 
the Twenty-fourth International Conference on Machine Learning 
(ICML’07), (Z. Ghahramani, ed.), pp. 759-766, ACM, 2007. 


M. Ranzato, Y. Boureau, S. Chopra, and Y. LeCun, “A unified energy- 
based framework for unsupervised learning,” in Proceedings of the 
Eleventh International Conference on Artificial Intelligence and Statis- 
tics (AISTATS’07), San Juan, Porto Rico: Omnipress, 2007. 


M. Ranzato, Y.-L. Boureau, and Y. LeCun, “Sparse feature learning for 
deep belief networks,” in Advances in Neural Information Processing 
Systems 20 (NIPS’07), (J. Platt, D. Koller, Y. Singer, and S. Roweis, 
eds.), pp. 1185-1192, Cambridge, MA: MIT Press, 2008. 


M. Ranzato, F. Huang, Y. Boureau, and Y. LeCun, “Unsupervised 
learning of invariant feature hierarchies with applications to object 
recognition,” in Proceedings of the Computer Vision and Pattern Recog- 
nition Conference (CVPR’07), IEEE Press, 2007. 


M. Ranzato and Y. LeCun, “A sparse and locally shift invariant feature 
extractor applied to document images,” in International Conference on 
Document Analysis and Recognition (ICDAR’07), pp. 1213-1217, Wash- 
ington, DC, USA: IEEE Computer Society, 2007. 


M. Ranzato, C. Poultney, S. Chopra, and Y. LeCun, “Efficient learning 
of sparse representations with an energy-based model,” in Advances in 
Neural Information Processing Systems 19 (NIPS’06), (B. Schélkopf, 
J. Platt, and T. Hoffman, eds.), pp. 1137-1144, MIT Press, 2007. 


M. Ranzato and M. Szummer, “Semi-supervised learning of compact 


112) 人 工 智能 中 的 深度 结构 学 习 


document representations with deep networks,” in Proceedings of the 
Twenty-fifth International Conference on Machine Learning (ICML’08), 
vol. 307, (W. W. Cohen, A. McCallum, and S. T. Roweis, eds.), pp. 792- 
799, ACM, 2008. 


[155] S. Roweis and L. K. Saul, “Nonlinear dimensionality reduction by locally 
linear embedding,” Science, vol. 290, no. 5500, pp. 2323-2326, 2000. 


[156] D. E. Rumelhart, G. E. Hinton, and R. J. Williams, “Learning repre- 
sentations by back-propagating errors,” Nature, vol. 323, pp. 533-536, 
1986. 


[157] D. E. Rumelhart, J. L. McClelland, and the PDP Research Group, Par- 
allel Distributed Processing: Explorations in the Microstructure of Cog- 
nition. Vol. 1, Cambridge: MIT Press, 1986. 


[158] R. Salakhutdinov and G. E. Hinton, “Learning a nonlinear embedding 
by preserving class neighbourhood structure,” in Proceedings of the 
Eleventh International Conference on Artificial Intelligence and Statis- 
tics (AISTATS’07), San Juan, Porto Rico: Omnipress, 2007. 


[159] R. Salakhutdinov and G. E. Hinton, “Semantic hashing,” in Proceedings 
of the 2007 Workshop on Information Retrieval and applications of 
Graphical Models (SIGIR 2007), Amsterdam: Elsevier, 2007. 


[160] R. Salakhutdinov and G. E. Hinton, “Using deep belief nets to learn 
covariance kernels for Gaussian processes,” in Advances in Neural Infor- 
mation Processing Systems 20 (NIPS’07), (J. Platt, D. Koller, Y. Singer, 
and S. Roweis, eds.), pp. 1249-1256, Cambridge, MA: MIT Press, 2008. 


[161] R. Salakhutdinov and G. E. Hinton, “Deep Boltzmann machines,” in 
Proceedings of The Twelfth International Conference on Artificial In- 
telligence and Statistics (AISTATS’09), vol. 5, pp. 448-455, 2009. 


[162] R. Salakhutdinov, A. Mnih, and G. E. Hinton, “Restricted Boltzmann 
machines for collaborative filtering,” in Proceedings of the Twenty-fourth 
International Conference on Machine Learning (ICML’07), (Z. Ghahra- 
mani, ed.), pp. 791-798, New York, NY, USA: ACM, 2007. 


[163] R. Salakhutdinov and I. Murray, “On the quantitative analysis of deep 
belief networks,” in Proceedings of the Twenty-fifth International Con- 
ference on Machine Learning (ICML’08), (W. W. Cohen, A. McCallum, 
and S. T. Roweis, eds.), pp. 872-879, ACM, 2008. 


[164] L. K. Saul, T. Jaakkola, and M. I. Jordan, “Mean field theory for sig- 
moid belief networks,” Journal of Artificial Intelligence Research, vol. 4, 
pp. 61-76, 1996. 


[165] M. Schmitt, “Descartes’ rule of signs for radial basis function neural 


参考 文献 人 113 


networks,” Neural Computation, vol. 14, no. 12, pp. 2997-3011, 2002. 


166] B. Schédlkopf, C. J. C. Burges, and A. J. Smola, Advances in Kernel 
Methods — Support Vector Learning. Cambridge, MA: MIT Press, 1999. 


167] B. Schélkopf, S. Mika, C. Burges, P. Knirsch, K.-R. Müller, G. Ratsch, 
and A. Smola, “Input space versus feature space in kernel-based meth- 
ods,” IEEE Trans. Neural Networks, vol. 10, no. 5, pp. 1000-1017, 1999. 


168] B. Schölkopf, A. Smola, and K.-R. Müller, “Nonlinear component anal- 
ysis as a kernel eigenvalue problem,” Neural Computation, vol. 10, 
pp. 1299-1319, 1998. 


. ochwenk, cient training of large neural networks for language 

169] H. Schwenk, “Effici ini f | ii ks for | 
modeling,” in International Joint Conference on Neural Networks 
(IJCNN), pp. 3050-3064, 2004. 


[170] H. Schwenk and J.-L. Gauvain, “Connectionist language modeling for 
large vocabulary continuous speech recognition,” in International Con- 
ference on Acoustics, Speech and Signal Processing (ICASSP), pp. 765- 
768, Orlando, Florida, 2002. 


[171] H. Schwenk and J.-L. Gauvain, “Building continuous space language 
models for transcribing european languages,” in Interspeech, pp. 737 一 
740, 2005. 








[172] H. Schwenk and M. Milgram, “Transformation invariant autoassociation 
with application to handwritten character recognition,” in Advances 
in Neural Information Processing Systems 7 (NIPS’94), (G. Tesauro, 
D. Touretzky, and T. Leen, eds.), pp. 991-998, MIT Press, 1995. 


[173] T. Serre, G. Kreiman, M. Kouh, C. Cadieu, U. Knoblich, and T. Poggio, 
“A quantitative theory of immediate visual recognition,” Progress in 
Brain Research, Computational Neuroscience: Theoretical Insights into 
Brain Function, vol. 165, pp. 33-56, 2007. 


[174] S. H. Seung, “Learning continuous attractors in recurrent networks,” 
in Advances in Neural Information Processing Systems 10 (NIPS’97), 
(M. Jordan, M. Kearns, and S. Solla, eds.), pp. 654-660, MIT Press, 
1998. 


[175] D. Simard, P. Y. Steinkraus, and J. C. Platt, “Best practices for con- 
volutional neural networks,” in International Conference on Document 
Analysis and Recognition (ICDAR’03), p. 958, Washington, DC, USA: 
IEEE Computer Society, 2003. 


[176] P. Y. Simard, Y. LeCun, and J. Denker, “Efficient pattern recogni- 
tion using a new transformation distance,” in Advances in Neural In- 
formation Processing Systems 5 (NIPS’92), (C. Giles, S. Hanson, and 


114) 人 工 智能 中 的 深度 结构 学 习 


[177] 


[178] 


[179] 


[180] 


[181] 


[182] 


[183] 


[187] 


J. Cowan, eds.), pp. 50-58, Morgan Kaufmann, San Mateo, 1993. 


B. F. Skinner, “Reinforcement today,” American Psychologist, vol. 13, 
pp. 94-99, 1958. 


P. Smolensky, “Information processing in dynamical systems: Founda- 
tions of harmony theory,” in Parallel Distributed Processing, vol. 1, 
(D. E. Rumelhart and J. L. McClelland, eds.), pp. 194-281, Cambridge: 
MIT Press, 1986. ch. 6. 


E. B. Sudderth, A. Torralba, W. T. Freeman, and A. S. Willsky, “De- 
scribing visual scenes using transformed objects and parts,” Interna- 
tional Journal of Computer Vision, vol. 77, pp. 291-330, 2007. 


I. Sutskever and G. E. Hinton, “Learning multilevel distributed rep- 
resentations for high-dimensional sequences,” in Proceedings of the 
Eleventh International Conference on Artificial Intelligence and Statis- 
tics (AISTATS’07), San Juan, Porto Rico: Omnipress, 2007. 


R. Sutton and A. Barto, Reinforcement Learning: An Introduction. MIT 
Press, 1998. 


G. Taylor and G. Hinton, “Factored conditional restricted Boltzmann 
machines for modeling motion style,” in Proceedings of the 26th Inter- 
national Conference on Machine Learning (ICML’09), (L. Bottou and 
M. Littman, eds.), pp. 1025-1032, Montreal: Omnipress, June 2009. 


G. Taylor, G. E. Hinton, and S. Roweis, “Modeling human motion using 
binary latent variables,” in Advances in Neural Information Processing 
Systems 19 (NIPS’06), (B. Schélkopf, J. Platt, and T. Hoffman, eds.), 
pp. 1345-1352, Cambridge, MA: MIT Press, 2007. 


Y. Teh, M. Welling, S. Osindero, and G. E. Hinton, “Energy-based 
models for sparse overcomplete representations,” Journal of Machine 
Learning Research, vol. 4, pp. 1235-1260, 2003. 


J. Tenenbaum, V. de Silva, and J. C. Langford, “A global geometric 
framework for nonlinear dimensionality reduction,” Science, vol. 290, 
no. 5500, pp. 2319-2323, 2000. 


S. Thrun, “Is learning the n-th thing any easier than learning the first?,” 
in Advances in Neural Information Processing Systems 8 (NIPS’95), 
(D. Touretzky, M. Mozer, and M. Hasselmo, eds.), pp. 640-646, Cam- 
bridge, MA: MIT Press, 1996. 


T. Tieleman, “Training restricted boltzmann machines using approxi- 
mations to the likelihood gradient,” in Proceedings of the Twenty-fifth 
International Conference on Machine Learning (ICML’08), (W. W. Co- 
hen, A. McCallum, and S. T. Roweis, eds.), pp. 1064-1071, ACM, 2008. 


参考 文献 人 115 


[188] T. Tieleman and G. Hinton, “Using fast weights to improve persis- 
tent contrastive divergence,” in Proceedings of the Twenty-sixth Inter- 
national Conference on Machine Learning (ICML’09), (L. Bottou and 
M. Littman, eds.), pp. 1033-1040, New York, NY, USA: ACM, 2009. 


[189] I. Titov and J. Henderson, “Constituent parsing with incremental sig- 
moid belief networks,” in Proc. 45th Meeting of Association for Com- 
putational Linguistics (ACL’07), pp. 632-639, Prague, Czech Republic, 
2007. 


[190] A. Torralba, R. Fergus, and Y. Weiss, “Small codes and large databases 
for recognition,” in Proceedings of the Computer Vision and Pattern 
Recognition Conference (CVPR’08), pp. 1-8, 2008. 


[191] P. E. Utgoff and D. J. Stracuzzi, “Many-layered learning,” Neural Com- 
putation, vol. 14, pp. 2497—2539, 2002. 


[192] L. van der Maaten and G. E. Hinton, “Visualizing data using t-sne,” 
Journal of Machine Learning Research, vol. 9, pp. 2579-2605, November 
2008. 


[193] V. N. Vapnik, The Nature of Statistical Learning Theory. New York: 
Springer, 1995. 


R. Vilalta, G. Blix, and L. Rendell, “Global data analysis and the frag- 
mentation problem in decision tree induction,” in Proceedings of the 9th 
European Conference on Machine Learning (ECML’97), pp. 312-327, 
Springer-Verlag, 1997. 


[195] P. Vincent, H. Larochelle, Y. Bengio, and P.-A. Manzagol, “Extract- 
ing and composing robust features with denoising autoencoders,” in 
Proceedings of the Twenty-fifth International Conference on Machine 
Learning (ICML’08), (W. W. Cohen, A. McCallum, and S. T. Roweis, 
eds.), pp. 1096-1103, ACM, 2008. 


[194 


[196] L. Wang and K. L. Chan, “Learning kernel parameters by using class 
separability measure,” 6th kernel machines workshop, in conjunction 
with Neural Information Processing Systems (NIPS), 2002. 


[197] M. Weber, M. Welling, and P. Perona, “Unsupervised learning of models 
for recognition,” in Proc. 6th Europ. Conf. Comp. Vis., ECCV2000, 
pp. 18-32, Dublin, 2000. 


[198] I. Wegener, The Complexity of Boolean Functions. John Wiley & Sons, 
1987. 


[199] Y. Weiss, “Segmentation using eigenvectors: a unifying view,” in 
Proceedings IEEE International Conference on Computer Vision 
(ICCV’99), pp. 975-982, 1999. 


116) 人 工 智能 中 的 深度 结构 学 习 


[200] 


[201] 


[202] 


[203] 


[208] 


[209] 


M. Welling, M. Rosen-Zvi, and G. E. Hinton, “Exponential family har- 
moniums with an application to information retrieval,” in Advances 
in Neural Information Processing Systems 17 (NIPS’04), (L. Saul, 
Y. Weiss, and L. Bottou, eds.), pp. 1481-1488, Cambridge, MA: MIT 
Press, 2005. 


M. Welling, R. Zemel, and G. E. Hinton, “Self-supervised boosting,” 
in Advances in Neural Information Processing Systems 15 (NIPS’02), 
(S. Becker, S. Thrun, and K. Obermayer, eds.), pp. 665-672, MIT Press, 
2003. 


J. Weston, F. Ratle, and R. Collobert, “Deep learning via semi- 
supervised embedding,” in Proceedings of the Twenty-fifth International 
Conference on Machine Learning (ICML’08), (W. W. Cohen, A. Mc- 
Callum, and S. T. Roweis, eds.), pp. 1168-1175, New York, NY, USA: 
ACM, 2008. 


C. K. I. Williams and C. E. Rasmussen, “Gaussian processes for re- 
gression,” in Advances in neural information processing systems 8 
(NIPS’95), (D. Touretzky, M. Mozer, and M. Hasselmo, eds.), pp. 514- 
520, Cambridge, MA: MIT Press, 1996. 


L. Wiskott and T. J. Sejnowski, “Slow feature analysis: Unsupervised 
learning of invariances,” Neural Computation, vol. 14, no. 4, pp. 715 
770, 2002. 


D. H. Wolpert, “Stacked generalization,” Neural Networks, vol. 5, 
pp. 241-249, 1992. 


Z. Wu, “Global continuation for distance geometry problems,” SIAM 
Journal of Optimization, vol. 7, pp. 814-836, 1997. 


P. Xu, A. Emami, and F. Jelinek, “Training connectionist models for 
the structured language model,” in Proceedings of the 2003 Conference 
on Empirical Methods in Natural Language Processing (EMNLP’2003), 
vol. 10, pp. 160-167, 2003. 


A. Yao, “Separating the polynomial-time hierarchy by oracles,” in Pro- 
ceedings of the 26th Annual IEEE Symposium on Foundations of Com- 
puter Science, pp. 1-10, 1985. 


D. Zhou, O. Bousquet, T. Navin Lal, J. Weston, and B. Schélkopf, 
“Learning with local and global consistency,” in Advances in Neural 
Information Processing Systems 16 (NIPS’03), (S. Thrun, L. Saul, and 
B. Schélkopf, eds.), pp. 321-328, Cambridge, MA: MIT Press, 2004. 


参考 文献 人 117 


[210] X. Zhu, Z. Ghahramani, and J. Lafferty, “Semi-supervised learning using 
Gaussian fields and harmonic functions,” in Proceedings of the Twenty 
International Conference on Machine Learning (ICML’03), (T. Fawcett 
and N. Mishra, eds.), pp. 912-919, AAAI Press, 2003. 


[211] M. Zinkevich, “Online convex programming and generalized infinitesi- 
mal gradient ascent,” in Proceedings of the Twenty International Con- 
ference on Machine Learning (ICML’03), (T. Fawcett and N. Mishra, 
eds.), pp. 928-936, AAAT Press, 2003. 


大 数据 丛书 


IG DATA SERIES 


《深度 学 习 : 方法 及 应 用 》 
《统计 学 习 理 论 基 础 》 

《人 工 智 能 中 的 深度 结构 学 习 》 
《模式 识别 和 分 类 》 

《基于 R 和 JavaScript 的 数据 可 视 化 》 
《计算 机 视觉 中 的 多 视图 几何 (EAR ) 》 
《计算 机 视觉 中 的 多 视图 几何 ( FAR ) 》 
《与 立体 视觉 同 游 : 从 图 像 到 几何 模型 》 
《文本 挖掘 》 

《差分 进化 算法 》 


Learning Deep Architectures for Al 


Bengio 教 授 的 这 部 专著 是 深度 学 习 的 经 典 ， 是 了 解 深度 学 习 技术 的 必 读 书目 。 书 中 有 许 
多 亮点 ， 比 如 ， 作 者 从 统计 效率 的 角度 论述 了 深度 神经 网 络 的 优点 ， 揭 示 了 深度 学 习 强 大 
学 习 能 力 的 本 质 。 命 凯 教授 将 该 书 翻译 成 中 文 ， 一 定 能 帮助 国内 读者 更 准确 细致 地 了 解 其 
内 容 ， 推 动 深度 学 习 知识 的 普及 ， 实 在 是 功 不 可 没 ! 

李 航 华为 诺 亚 方舟 实验 室 主任 , IEEE Fellow 


深入 理解 深度 学 习 的 理论 是 高 效 运用 具体 算法 的 基础 。Yoshua Bengio 教 授 的 这 部 力 
作 是 深入 理解 深度 学 习 动 机 的 经 典 之 作 。 俞 凯 教授 对 此 书 的 翻译 行文 清晰 、 概 念 严谨 ， 将 
英文 原著 中 的 长 段 论述 以 符合 中 国人 逻辑 的 方式 进行 意译 ， 忠 实 而 易 懂 地 表达 了 原著 。 这 
对 于 促进 国内 学 生 或 研究 者 深入 理解 深度 学 习 本 质 ， 探 索 新 的 研究 方向 具有 很 大 的 价值 。 
虽然 这 个 英文 单行 版 已 上 朋 八 年 的 历史 且 作 者 一 年 前 出 版 了 更 新 的 关于 深度 学 习 的 书 , 俞 教 
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